搜索引擎优化原理(搜索引擎的工作过程可以分成三个阶段(1)_)

优采云发布时间: 2021-09-17 03:00

　　搜索引擎的工作过程可以分为三个阶段

　　（1)crawling and crawling：搜索引擎爬行器通过跟踪链接访问网页，获取网页HTML代码并将其存储在数据库中

　　（2)preprocessing：索引程序对捕获的页面数据进行文本提取、中文分词、索引等处理，供排名程序调用

　　（3)ranking：用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按照一定格式生成搜索结果页面

　　爬行和抓取

　　爬行和爬行是搜索引擎完成数据采集任务的第一步

　　1.spider

　　搜索引擎用来抓取和访问页面的程序称为spider，也称为robot

　　搜索引擎spider访问网站页面时，与普通用户使用的浏览器类似。spider程序发送页面访问请求后，服务器返回HTML代码，spider程序将收到的代码存储在原创页面数据库中。为了提高爬行和爬行速度，搜索引擎使用多个蜘蛛同时爬行

　　当爬行器访问任何网站时，它将首先访问网站根目录中的robots.txt文件。如果robots.txt文件禁止搜索引擎获取某些文件或目录，爬行器将遵守协议，不会获取禁止的网址。与浏览器一样，搜索引擎爬行器也有代理表明其身份的名称。网站管理员可以在日志文件中识别搜索引擎

　　2.轨道连接

　　为了抓取尽可能多的网页，搜索引擎蜘蛛会跟踪网页上的链接并从一个网页爬到下一个网页，就像蜘蛛在蜘蛛网上爬行一样。这就是搜索引擎蜘蛛名称的由来

　　整个互联网是由链接的网站和页面组成的。理论上，蜘蛛可以从链接上的任何页面爬到互联网上的所有页面。当然，由于网站和页面链接的结构极其复杂，蜘蛛需要采取某种爬取策略来遍历互联网上的所有页面

　　最简单的爬行遍历策略分为两种：深度优先和广度优先

　　所谓的深度优先是指爬行器沿着找到的链接向前爬行，直到前面没有其他链接，然后返回到第一页并沿着另一个链接向前爬行

　　3.吸引蜘蛛

　　可以看出，虽然理论上蜘蛛可以爬行并抓取所有页面，但它们不能也不会这样做

　　如果SEO人员希望更多的页面被收录，他们应该尽最大努力吸引蜘蛛来抓取。因为他们无法抓取所有页面，所有蜘蛛必须做的就是抓取重要页面。哪些页面被认为更重要？有几个影响因素

　　网站和页面权重。高质量和旧合格的网站被认为具有高权重，并且网站上的页面爬行深度也将很高，因此更多的内部页面将收录

　　页面更新程度。每次爬行器爬行时，它都会存储页面数据。如果第二次爬行发现页面与第一次收录one完全相同，则表示页面未更新，爬行器不需要经常抓取。如果页面内容更新频繁，爬行器将更频繁地访问此页面，并且他在网页上的新链接自然会更快的蜘蛛跟踪和抓取新的网页

　　导入链接。无论是外部链接还是相同的网站内部链接，爬行器都必须捕获导入链接才能进入页面，否则爬行器就没有机会知道页面的存在。高质量的导入链接通常会增加页面上导出链接的爬升深度

　　点击距离主页的距离。一般来说，网站主页的权重最高。大多数外部链接指向主页，而蜘蛛也最常访问主页。点击距离主页越近，页面权重越高，被蜘蛛抓取的可能性越大

　　4.地址库

　　为了避免重复抓取和抓取网址，搜索引擎将建立一个地址库，记录已找到和未抓取的网页以及已抓取的网页

0

2021-09-17

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册