淘宝搜索引擎优化ppt(一般来说自己网站被其他网站引用最多的页面就是首页是什么 )

优采云 发布时间: 2021-09-19 19:16

  淘宝搜索引擎优化ppt(一般来说自己网站被其他网站引用最多的页面就是首页是什么

)

  一般来说,其他网站引用网站最多的页面是主页,因此其权重最高,如a页A网站从a页的主页可以得出结论,该页的权重比a页的权重更容易提高。例如,页面a上的超链接更容易被蜘蛛抓取,也更容易被蜘蛛抓取,对于蜘蛛没有找到的网页,权重自然为0

  另一个重要点是,当爬行页面时,爬行器将执行一定程度的复制检测,即当前爬行页面的内容是否与保存的数据一致(当页面内容是重印/不当剽窃时,爬行器将检测到)。如果在重量较轻的网站上存在大量转载/剽窃行为,蜘蛛很可能会停止爬行

  就像两颗豌豆一样,这是为了用户的体验。如果没有这些步骤,当用户想要搜索某些内容时,会发现返回的所有结果都与内容相同,这将极大地影响用户体验。这样做的结果是,搜索引擎将永远不会被再次使用,因此为了方便用户,这也是为了我们公司的正常发展

  地址库

  互联网上有这么多网页。为了避免爬行和重复爬行网页,搜索引擎将建立一个地址库。一个用于记录已找到但尚未爬网的页面,另一个用于记录已爬网的页面

  要访问(发现但未捕获)的地址库中的地址来自以下方式:

  1.手动输入的地址

  2.spider抓取页面后,它从HTML代码中获取新的链接地址,并将其与两个地址库中的数据进行比较。如果不是,则将地址存储在要访问的地址库中

  3.webmaster(网站person-in-character)提交您希望搜索引擎抓取的页面。(一般来说,这种影响不大)

  爬行器根据重要性从要访问的地址库中提取URL,访问并抓取页面,然后从要访问的地址库中删除URL地址并将其放入已访问的地址库中

  文件存储

  爬行器将捕获的数据存储到原创页面数据库中

  存储的数据与服务器返回给spider的HTML内容相同。存储在数据库中时,每个页面都有其唯一的文件号

  预处理

  当我们去购物中心买蔬菜时,我们会看到蔬菜保险箱里的蔬菜摆放整齐。这里的例子是那些用塑料包装的包装蔬菜

  

  最后,向客户展示上述图片。包装完好,分类摆放整齐。顾客一眼就能清楚地看到每个地区都有哪些蔬菜

  在最终完成该结果之前,整个过程大约分为三个步骤:

  1.选择要出售的蔬菜

  从一堆蔬菜中,选择可以出售的蔬菜

  2.预处理

  此时,所有可以出售的蔬菜都摆在你面前。然而,如果你今天想把这些蔬菜放进蔬菜保险箱,你会浪费很多时间(包装蔬菜等),而且当顾客来的时候,蔬菜可能还没有被分拣出来

  因此,你的解决方案是包装可以提前出售的蔬菜,并将其储存在仓库中。当保险箱里的蔬菜不见了,需要补充时,花几分钟时间跑到仓库把蔬菜拿出来放在架子上。(我想,我不知道具体商场的流程是什么样的,为了便于后续理解,最好用生活实例来说明)

  3.放在保险箱上

  在上面最后一段中,当需要补充时,从仓库中取出包装好的蔬菜,并根据蔬菜类别将其放置在适当的位置。这是最后的排序步骤

  回到搜索引擎的工作流程,这个预处理步骤与上面的预处理步骤相同

  spider完成数据采集后,将进入此步骤

  spider所做的是在采集数据后将数据(HTML)存储到原创页面数据库中

  这些数据不是用户在搜索后直接用于排序和显示在搜索结果页面上的数据

  原创页面数据库中的页面数超过万亿。如果用户搜索后对原创页面数据库中的数据进行实时排序,则将使用排名程序(每个步骤中使用的程序不同,采集数据的程序称为spider,排名中使用的程序为排名程序)分析每个页面数据与用户想要搜索的内容之间的相关性。计算量太大,会浪费太多时间,不可能在一两秒钟内返回排名结果

  因此,我们需要对原创页面数据库中的数据进行预处理,为最终排名做准备

  提取文本

  我们在原创页面数据库中存储的是HTML代码。在HTML代码中,不仅有用户可以直接在页面上看到的文本内容,还有其他搜索引擎(如JS和Ajax)无法用于排名的内容

  首先要做的是从HTML文件中删除无法解析的内容,并提取可以排序的文本内容

  例如,下面的代码

<p>

软件工程师需要了解的搜索引擎知识

MathJax.Hub.Config({

showProcessingMessages: false,

messageStyle: "none",

tex2jax: {

inlineMath: [[&#39;$&#39;,&#39;$&#39;], [&#39;\\(&#39;,&#39;\\)&#39;]],

displayMath: [ ["$$","$$"] ],

skipTags: [&#39;script&#39;, &#39;noscript&#39;, &#39;style&#39;, &#39;textarea&#39;, &#39;pre&#39;, &#39;code&#39;, &#39;a&#39;]

}

});

MathJax.Hub.Register.MessageHook("End Process", function (message) {

var eve = new Event(&#39;mathjaxfini&#39;)

window.dispatchEvent(eve)

})

hi

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线