-SEO优化系列教程(6)搜索引擎的工作原理
优采云 发布时间: 2021-06-29 00:11-SEO优化系列教程(6)搜索引擎的工作原理
搜索引擎工作原理-SEO优化系列教程(6)
搜索引擎的工作原理
SEO人员需要了解搜索引擎的工作原理并了解其工作原理才能更好地优化网站
搜索引擎的基本工作原理包括以下四个过程:爬取建库、搜索排序、外部投票、结果展示
抓取并构建一个库
互联网信息爆炸式增长,如何有效地获取和使用这些信息是搜索引擎工作的第一环节
数据采集系统作为整个搜索引擎系统的上游,主要负责互联网信息的采集、保存和更新。他2像蜘蛛一样在网络上爬来爬去,所以它通常被称为“蜘蛛”
比如我们常用的搜索引擎蜘蛛有Baiduspdier、Googlebot、搜狗Web Speider等
Spider爬取系统时搜索引擎数据来源的重要保证。如果把Web理解为一个有向图,那么Spider的工作过程可以看作是对这个有向图的遍历
从一些重要的*敏*感*词*网址开始,通过页面上的超链接关系,不断地发现和抓取新的网址,尽可能多的抓取更有价值的网页
对于像百度这样的大型蜘蛛系统,由于网页随时都有可能被修改、删除或出现新的超链接,因此需要对蜘蛛过去爬过的页面进行更新和维护一个网址库和页面库
1.Fetching 策略类型
其实Baiduspdier在爬虫过程中是一个超级复杂的网络环境。为了让系统尽可能多的抓取有价值的资源,并保持系统中页面与实际环境的一致性,不给网站Experience造成压力,各种复杂的爬取策略必须设计
以下是简单介绍:
(1)Grab-Friendlyness
庞大的互联网资源数量级要求抓取系统尽可能高效地利用资源,在有限的硬件和宽带资源下抓取尽可能多的有价值的资源
这又产生了一个问题:被抓到的网站的带宽造成访问压力。度数过大,会直接影响抓到的网站的正常用户访问行为
因此,在爬取过程中必须进行一定的爬取压力控制,以达到既不影响网站正常用户访问的目的,又尽可能多的抓取有价值的资源
通常,最基本的是基于IP的压力控制
因为如果是基于域名的话,可能会出现一个域名对应多个IP(很多大网站)或者多个域名对应同一个IP(小网站shared IP)的问题
在实践中,压力部署控制往往是根据IP和域名的各种情况进行的
同时,站长平台也推出了压力反馈工具。站长可以手动调整他的网站抓取压力。此时百度蜘蛛会根据站长要求优先进行抓取压力控制
一个网站的抓取速度控制一般分为两类:一是一段时间内的抓取频率;二、一段时间内的抓取流量
同一个网站不同时间的爬取速度不同。
比如晚上爬行可能会更快,具体要看网站类型,只要是错开正常用户访问高峰的思路,不断调整
对于不同的网站,也需要不同的爬取速度
谢谢收看。上面搜索引擎的工作原理只是说今天文章就分享一下这个。时光飞逝,不知不觉中,新川教育成立11周年。在此,祝各位新老同学、各界人士身体健康、事业有成、家庭幸福