seo优化搜索引擎工作原理(SEO实战:搜索引擎工作原理三个阶段简介工作过程,)

优采云 发布时间: 2021-09-17 18:22

  seo优化搜索引擎工作原理(SEO实战:搜索引擎工作原理三个阶段简介工作过程,)

  SEO实践:分三个阶段介绍搜索引擎的工作原理。搜索引擎的工作过程非常复杂。在接下来的几节中,我们将简要介绍搜索引擎如何实现网页排名。这里介绍的内容与真正的搜索引擎技术相比只是肤浅的,但对于SEO人员来说已经足够了。搜索引擎的工作过程可以分为三个阶段。(1) 爬行和爬行:搜索引擎爬行器通过跟踪链接访问网页,获取网页HTML代码并将其存储在数据库中。(2) 预处理:索引程序对捕获的页面数据进行文本提取、中文分词、索引等处理,供排名程序调用。(3) 排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按照一定格式生成搜索结果页面一、crawling和crawling爬行是搜索引擎完成数据采集任务的第一步。1.蜘蛛搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人。当搜索引擎蜘蛛访问网站页面时,它类似于普通用户使用的浏览器。spider程序发出页面访问请求后,服务器返回HTML代码,spider程序将收到的代码存储在原创页面数据库中。为了提高爬行和爬行速度,搜索引擎使用多个爬行器同时爬行。当爬行器访问任何网站时,它将首先访问网站根目录中的robots.txt文件

  如果robots.txt文件禁止搜索引擎对某些文件或目录进行爬网,则爬行器将遵守协议,不会对禁止的网址进行爬网。与浏览器一样,搜索引擎爬行器也有一个代理名称指示其身份。网站管理员可以在日志文件中看到搜索引擎的特定代理名称,以便识别搜索引擎蜘蛛。以下是常见搜索引擎蜘蛛名称列表:·百度蜘蛛+(+RCH/spider.HTM)百度蜘蛛·Mozilla/5.0(兼容;Yahoo!Slurp China;)Yahoo China spider·Mozilla/5.0(兼容;Yahoo!Slurp/3.0(英文)雅虎蜘蛛·Mozilla/5.0(兼容;谷歌机器人/2.1;+.HTML)谷歌蜘蛛·MSNBot/1.1(+)微软必应蜘蛛·搜狗+网络+机器人+(+S/help/webmasters.Htm#07)搜狗蜘蛛+(+)搜狗蜘蛛·Mozilla/5.0(兼容;YodaoBot/1.0;P/webmaster/Spider/;)追踪链接为了在互联网上尽可能多地抓取网页,搜索引擎蜘蛛会追踪网页上的链接并从一个网页爬到下一个网页,就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来

  整个互联网是由网站和相互链接的页面组成的。理论上,蜘蛛可以从任何页面沿着链接爬行到互联网上的所有页面。当然,由于网站和页面链接结构极其复杂,蜘蛛需要采取某种爬行策略来遍历互联网上的所有页面。最简单的爬行ing遍历策略分为两种类型:深度优先和广度优先。所谓深度优先是指爬行器沿着找到的链接向前爬行,直到前面没有其他链接,然后返回到第一个页面并沿着另一个链接向前爬行。如图2-20所示,爬行器跟踪链接并从页面开始爬行a到A1、A2、A3和A4。当没有其他链接可跟踪时,它返回到a页并沿着页面上的另一个链接爬行到B1、B2、B3和B4。在深度优先策略中,爬行器爬升直到无法向前移动,然后返回爬升另一行。宽度优先意味着当爬行器在页面上找到多个链接时,它不会爬升单击一个链接,但爬升页面上的所有第一级链接,然后沿着第二级页面上的链接爬升到第三级页面。如图2-21所示,爬行器沿着链接从页面a爬升到页面A1、B1和C1,直到页面a上的所有链接都被爬升,然后从下一个链接爬升到页面A2、A3、A4见A1页

  图2-20深度优先遍历策略图2-21广度优先遍历策略从理论上讲,无论是深度优先还是广度优先,只要有足够的时间,爬行器都可以爬上整个互联网。在实际工作中,爬行器的带宽资源和时间不是无限的,爬行是不可能的l个页面。事实上,最大的搜索引擎只能爬行和收录互联网的一小部分。深度优先和广度优先通常是混合的,它们可以处理尽可能多的网站(广度优先)和部分网站内部页面(深度优先).3.吸引蜘蛛。可以看出,虽然蜘蛛在理论上可以抓取所有页面,但在实践中它们不能也不会这样做。如果SEO人员希望更多的页面成为收录,他们应该尽最大努力吸引蜘蛛抓取它们。因为你做不到

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线