百度搜索引擎优化原理(搜索引擎国内用的最多的就是baidu和谷歌也有一些区别)
优采云 发布时间: 2021-09-03 16:06百度搜索引擎优化原理(搜索引擎国内用的最多的就是baidu和谷歌也有一些区别)
中国最常用的搜索引擎是百度。百度和谷歌也有一些区别。
搜索引擎的工作过程非常复杂。作为一名SEO从业者,结合自己的工作经验,简单谈谈我对搜索引擎工作原理的理解。只有了解了原理,才能有目标,为搜索引擎提供他们喜欢的信息,从而增加流量和排名。
搜索引擎的工作过程大致可以分为三个阶段:
1、爬取和爬取:搜索引擎利用蜘蛛通过跟踪链接访问网页,也就是我们通常所说的外链和内链,获取页面的HTML代码并存入数据库。
2、预处理:索引程序对抓取的页面数据进行文本提取、中文分词、索引等处理,以便在搜索时更快地提取数据。
3、 Ranking:用户输入关键词后,排名程序调用索引数据库数据,计算搜索词的相关性,然后根据建立的逻辑组织进行排名。
接下来,我们来一步步分析搜索引擎的搜索和排名机制:
1、crawling 和爬行
蜘蛛
搜索引擎用来抓取和访问页面的程序被称为“蜘蛛”,每个人都变成了机器人。搜索引擎蜘蛛访问网站页面时,与普通用户使用的浏览器类似。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。搜索引擎为了提高抓取和抓取速度,使用多个蜘蛛一起抓取页面,以提高抓取速度。
蜘蛛访问任何网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,搜索引擎就不会抓取抓取,直接过滤这些文件。
2、跟踪链接
为了在互联网上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面的链接,从一个页面爬到另一个页面,一层一层地爬行,直到没有进一步的链接。
搜索引擎抓取有两个原则:一是深度优化,二是广度优先。
所谓深度优先是指蜘蛛沿着发现的链接向前爬,直到没有其他链接指向它,然后回到第一页继续爬行。
广度优先是指蜘蛛在一个页面上找到多个链接地址,而不是一路跟着一个链接往前走,而是爬完页面上所有一级链接后,从二级页面开始爬行,直到结尾。理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它们就可以爬取整个互联网。在实际工作中,蜘蛛的带宽资源和时间都是有限的,不可能爬到所有的页面。所以深度优先和广度优先通常混合使用,这样可以照顾到尽可能多的页面,以及部分内页。
3、吸引蜘蛛
接下来就要考虑如何吸引蜘蛛爬行,爬取更多的页面。我觉得应该从以下几个方面考虑:
(1)网站和页面权重:
优质且资深的网站被认为具有更高的权重。这样的网站页面会被爬得更深,收录的内页会增加。
(2)页面更新率:
蜘蛛每次爬行都会存储页面数据。如果第二次爬取发现页面和第一个收录完全一样,说明网站页面没有更新,下次蜘蛛过来继续爬的概率不是很高。
(3)import 链接:
导入链接就是我们常说的外部链接和内部链接。顾名思义,外部链接是从外部网站导入的,其中大部分是友情链接。内部链接主要针对网站的内部,指的是网站的一页到另一页的点。高质量的外链可以增加网站的权重,也可以增加搜索引擎对网站的爬取深度。