seo搜索引擎工具(SEO工具资料,SEO实战密码搜索引擎优化,工作过程)
优采云 发布时间: 2021-12-14 17:25seo搜索引擎工具(SEO工具资料,SEO实战密码搜索引擎优化,工作过程)
SEO工具资料,SEO实战密码,搜索引擎优化,SEO技巧,SEO优化实战
搜索引擎的工作过程非常复杂。在接下来的几节中,我们将简要介绍搜索引擎如何实现页面排名。与真正的搜索引擎技术相比,这里介绍的只是一个皮包骨,但对于SEO人员来说已经足够了。
搜索引擎的工作过程大致可以分为三个阶段:
1) 爬行和爬行——搜索引擎蜘蛛通过跟踪链接访问网页,获取页面的HTML代码并存入数据库。
2) 预处理——索引程序对爬取的页面数据进行文本提取、中文分词、索引等处理,为排名程序调用做准备。
3) Ranking——用户输入关键词后,排名程序调用索引库数据,计算相关性,然后生成一定格式的搜索结果页面。
爬取和爬取是搜索引擎工作的第一步,完成数据采集的任务。
蜘蛛:搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人。
搜索引擎蜘蛛访问网站页面时,与普通用户使用的浏览器类似。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。搜索引擎为了提高爬取和爬取速度,使用多个蜘蛛并发分布爬取。
蜘蛛访问任何网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不会抓取被禁止的网址。
与浏览器一样,搜索引擎蜘蛛也有自己的代理名称来标识自己。站长可以在日志文件中查看搜索引擎的具体代理名称来识别搜索引擎蜘蛛。下面列出了常见的搜索引擎蜘蛛的名称:
? 百度蜘蛛+(+) 百度蜘蛛
? Mozilla/5.0(兼容;Yahoo! Slurp 中国;)Yahoo 中国蜘蛛
? Mozilla/5.0(兼容;Yahoo! Slurp/3.0;)英文雅虎蜘蛛
Mozilla/5.0(兼容;Googlebot/2.1;+)谷歌蜘蛛
? msnbot/1.1 (+) 微软必应蜘蛛
? 搜狗+网络+机器人+(+ #07) 搜狗蜘蛛
? Sosospider+(+) Sosospider
? Mozilla/5.0 (兼容; YodaoBot/1.0;;) 有道蜘蛛
追踪链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。这就是名称搜索引擎蜘蛛的由来。
整个互联网是由链接的网站和页面组成的。理论上,蜘蛛从任何页面开始,按照链接爬到网络上的所有页面。当然,由于网站和页面链接的结构极其复杂,蜘蛛需要采用一定的爬取策略来遍历互联网上的所有页面。
最简单的爬行