搜索引擎优化原理(搜索引擎的工作过程可以分成三个阶段(1)_)
优采云 发布时间: 2021-09-17 03:00搜索引擎优化原理(搜索引擎的工作过程可以分成三个阶段(1)_)
搜索引擎的工作过程可以分为三个阶段
(1)crawling and crawling:搜索引擎爬行器通过跟踪链接访问网页,获取网页HTML代码并将其存储在数据库中
(2)preprocessing:索引程序对捕获的页面数据进行文本提取、中文分词、索引等处理,供排名程序调用
(3)ranking:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按照一定格式生成搜索结果页面
爬行和抓取
爬行和爬行是搜索引擎完成数据采集任务的第一步
1.spider
搜索引擎用来抓取和访问页面的程序称为spider,也称为robot
搜索引擎spider访问网站页面时,与普通用户使用的浏览器类似。spider程序发送页面访问请求后,服务器返回HTML代码,spider程序将收到的代码存储在原创页面数据库中。为了提高爬行和爬行速度,搜索引擎使用多个蜘蛛同时爬行
当爬行器访问任何网站时,它将首先访问网站根目录中的robots.txt文件。如果robots.txt文件禁止搜索引擎获取某些文件或目录,爬行器将遵守协议,不会获取禁止的网址。与浏览器一样,搜索引擎爬行器也有代理表明其身份的名称。网站管理员可以在日志文件中识别搜索引擎
2.轨道连接
为了抓取尽可能多的网页,搜索引擎蜘蛛会跟踪网页上的链接并从一个网页爬到下一个网页,就像蜘蛛在蜘蛛网上爬行一样。这就是搜索引擎蜘蛛名称的由来
整个互联网是由链接的网站和页面组成的。理论上,蜘蛛可以从链接上的任何页面爬到互联网上的所有页面。当然,由于网站和页面链接的结构极其复杂,蜘蛛需要采取某种爬取策略来遍历互联网上的所有页面
最简单的爬行遍历策略分为两种:深度优先和广度优先
所谓的深度优先是指爬行器沿着找到的链接向前爬行,直到前面没有其他链接,然后返回到第一页并沿着另一个链接向前爬行
3.吸引蜘蛛
可以看出,虽然理论上蜘蛛可以爬行并抓取所有页面,但它们不能也不会这样做
如果SEO人员希望更多的页面被收录,他们应该尽最大努力吸引蜘蛛来抓取。因为他们无法抓取所有页面,所有蜘蛛必须做的就是抓取重要页面。哪些页面被认为更重要?有几个影响因素
网站和页面权重。高质量和旧合格的网站被认为具有高权重,并且网站上的页面爬行深度也将很高,因此更多的内部页面将收录
页面更新程度。每次爬行器爬行时,它都会存储页面数据。如果第二次爬行发现页面与第一次收录one完全相同,则表示页面未更新,爬行器不需要经常抓取。如果页面内容更新频繁,爬行器将更频繁地访问此页面,并且他在网页上的新链接自然会更快的蜘蛛跟踪和抓取新的网页
导入链接。无论是外部链接还是相同的网站内部链接,爬行器都必须捕获导入链接才能进入页面,否则爬行器就没有机会知道页面的存在。高质量的导入链接通常会增加页面上导出链接的爬升深度
点击距离主页的距离。一般来说,网站主页的权重最高。大多数外部链接指向主页,而蜘蛛也最常访问主页。点击距离主页越近,页面权重越高,被蜘蛛抓取的可能性越大
4.地址库
为了避免重复抓取和抓取网址,搜索引擎将建立一个地址库,记录已找到和未抓取的网页以及已抓取的网页