seo优化搜索引擎工作原理( (SEO实战密码电子工业出版社2011年1月出版))
优采云 发布时间: 2021-09-06 22:10seo优化搜索引擎工作原理(
(SEO实战密码电子工业出版社2011年1月出版))
(SEO实战密码,电子工业出版社2011年1月出版)
作者信息:
赞辉,网名Zac,1992年毕业于北京航空航天大学电子工程系,1995年毕业于北京电影学院,获硕*敏*感*词*。1997年来到新加坡担任编辑和项目经理。 Zac从2006年开始写中文博客《SEO每日一帖》,短短几个月内,《SEO每日一帖》成为中国SEO领域引用率最高、最受欢迎的行业博客之一,许多文章广为流传在互联网上。
注:本文由电子工业出版社授权站长之家连载,未经授权请勿转载。 文章内容摘自《SEO实用密码》第二章。
搜索引擎的工作过程非常复杂。在接下来的几节中,我们将简要介绍搜索引擎如何实现页面排名。这里介绍的内容与真正的搜索引擎技术相比,只是皮包骨,但对于SEO人员来说已经足够了。
搜索引擎的工作过程大致可以分为三个阶段。
(1)crawling and crawling:搜索引擎蜘蛛通过跟踪链接访问网页,获取页面的HTML代码并存入数据库。
(2)预处理:索引程序对抓取到的页面数据进行文本提取、中文分词、索引等处理,为排名程序调用做准备。
(3)ranking:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后生成一定格式的搜索结果页面。
爬行和爬行
爬取和爬取是搜索引擎工作的第一步,完成数据采集的任务。
1.蜘蛛
搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人。
当搜索引擎蜘蛛访问网站页面时,它类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。搜索引擎为了提高抓取和抓取速度,使用多个蜘蛛并发分布抓取。
蜘蛛访问任何网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不会抓取被禁止的网址。
与浏览器一样,搜索引擎蜘蛛也有用于标识自己的代理名称。站长可以在日志文件中查看搜索引擎的具体代理名称来识别搜索引擎蜘蛛。常见的搜索引擎蜘蛛名称如下:
·百度蜘蛛+(+)百度蜘蛛
·Mozilla/5.0(兼容;Yahoo! Slurp China;)雅虎中国蜘蛛
·Mozilla/5.0(兼容;Yahoo! Slurp/3.0;)英文雅虎蜘蛛
·Mozilla/5.0(兼容;Googlebot/2.1;+)谷歌蜘蛛
·msnbot/1.1 (+) 微软必应蜘蛛
·搜狗+web+robot+(+#07)搜狗工作室
·Sosospider+(+) 搜索蜘蛛
·Mozilla/5.0 (兼容; YodaoBot/1.0;;) 有道蜘蛛
2.跟踪链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。这就是搜索引擎蜘蛛这个名字的由来。
整个互联网是由链接的网站和页面组成的。理论上,蜘蛛从任何页面开始,按照链接爬到互联网上的所有页面。当然,由于网站和页面链接的结构异常复杂,蜘蛛需要采取一定的爬取策略来遍历互联网上的所有页面。
最简单的爬行遍历策略分为两种,一种是深度优先,一种是广度优先。
所谓深度先行,是指蜘蛛沿着找到的链接向前爬,直到前面没有链接,然后回到第一页,再沿着另一个链接向前爬。
如图2-20所示,蜘蛛跟随链接,从A页爬到A1、A2、A3、A4页,到达A4页后,没有其他链接跟随,然后返回到A页,跟随页面A上的其他页面链接,爬到B1、B2、B3、B4。在深度优先策略中,蜘蛛爬到不能再向前爬,然后返回爬另一条线。
广度优先是指当一个蜘蛛在一个页面上发现多个链接时,它不会一直跟踪一个链接,而是爬取页面上所有的一级链接,然后跟踪二级页面找到的链接爬到三级页面。
如图2-21所示,蜘蛛沿着A页面的链接爬到A1、B1、C1页面,直到A页面的所有链接都被爬完,然后从A1页面找到下一层链接,抓取到 A2、A3、A4、....
图 2-20 深度优先遍历策略
图 2-21 广度优先遍历策略
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它们就可以抓取整个互联网。在实际工作中,蜘蛛的带宽资源和时间不是无限的,不可能爬满所有页面。事实上,最大的搜索引擎只是爬取而收录互联网的一小部分。
深度优先和广度优先通常混合使用。这可以处理尽可能多的网站(广度优先)和网站 的部分内页(深度优先)。
3.吸引蜘蛛
可以看出,蜘蛛虽然理论上可以爬取所有页面,但在实践中不能也不会这样做。如果SEO人员希望他们的页面更多是收录,他们必须想办法吸引蜘蛛爬行。由于不是所有的页面都可以爬取,所以蜘蛛要做的就是尽可能多地爬取重要的页面。哪些页面被认为更重要?有几个影响因素。
1、网站 和页面权重。质量高、资历老的网站被认为权重较高,此类页面在网站上的爬取深度也会更高,所以更多的内部页面会是收录。
2、page 更新率。每次蜘蛛爬行时,都会存储页面数据。如果第二次爬取发现页面和第一次收录完全一样,说明页面没有更新,蜘蛛不需要频繁爬取。如果页面内容更新频繁,蜘蛛会更频繁地访问该页面,页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。
3、import 链接。不管是外链还是同一个网站的内链,为了被蜘蛛爬取,必须有导入链接才能进入页面,否则蜘蛛没有机会知道页面的存在高质量的导入链接也往往会增加页面导出链接的深度。
4、点击离主页的距离。一般来说网站在首页的权重最高,大部分外链都指向首页,首页是蜘蛛最常访问的。点击离首页越近,页面权重越高,被蜘蛛抓取的机会就越大。
4.地址库
为了避免重复抓取和抓取网址,搜索引擎会建立一个地址库来记录发现没有被抓取的页面,以及已经被抓取的页面。