百度搜索引擎优化原理(Spider抓取系统的基本框架增长，如何有效的获取并利用)

　　Spider爬虫系统基本框架

　　互联网信息爆炸式增长，如何有效地获取和使用这些信息是搜索引擎工作的首要环节。数据采集系统作为整个搜索系统的上游，主要负责互联网信息的采集、保存和更新。它像蜘蛛一样在网络中爬行，所以通常被称为“蜘蛛”。比如我们常用的几种常见的搜索引擎蜘蛛叫做：Baiduspdier、Googlebot、搜狗网蜘蛛等。

　　蜘蛛抓取系统是搜索引擎数据来源的重要保障。如果把网络理解为一个有向图，那么蜘蛛的工作过程可以看作是对这个有向图的一次遍历。从一些重要的*敏*感*词*网址开始，通过页面上的超链接关系，不断地发现和抓取新的网址，尽可能多地抓取有价值的网页。对于像百度这样的大型蜘蛛系统，由于网页随时可能被修改、删除或出现新的超链接，因此需要更新以往蜘蛛抓取的页面，并维护一个网址库和页面库。

　　下图是蜘蛛抓取系统的基本框架，包括链接存储系统、链接选择系统、dns分析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。百度蜘蛛通过本系统的配合完成了对网页的抓取。

　　百度蜘蛛主要爬取策略类型

　　上图看似简单，但Baiduspider在爬取过程中实际上面临着一个超级复杂的网络环境，为了让系统尽可能多的抓取有价值的资源，维护系统和实际环境中的页面。同时网站的一致性不会对网站的体验造成压力，会设计出多种复杂的爬取策略。下面简单介绍一下：

　　1.爬虫友好

　　互联网资源具有巨大的数量级，这就要求抓取系统尽可能高效地使用带宽，在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这会导致另一个问题。捕获的网站带宽被消耗，造成访问压力。如果度数过大，会直接影响抓到的网站的正常用户访问行为。因此，在爬取过程中，必须控制一定的爬取压力，以达到不影响网站正常用户访问，尽可能多抓取有价值资源的目的。

　　通常，最基本的是基于ip的压力控制。这是因为如果是基于一个域名，可能会出现一个域名对应多个ip（很多大网站）或者多个域名对应同一个ip（小网站share ip）的问题。在实际中，压力部署控制往往是根据ip和域名的各种情况进行的。同时，站长平台也推出了压力反馈工具。站长可以手动调整他的网站的抓取压力。此时百度蜘蛛会根据站长的要求，优先进行抓取压力控制。

　　对同一个站点的抓取速度控制一般分为两类：一类是一段时间内的抓取频率；二是一段时间内的爬取流量。同一个站点的爬取速度在不同的时间会有所不同。例如，在夜晚安静、月亮暗、风大的时候，爬行速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问的高峰期，不断调整。对于不同的网站，也需要不同的抓取速度。

　　2.常见爬取返回码指示

　　简单介绍一下百度支持的几种返回码：

　　3.多url重定向的识别

　　由于各种原因，Internet 上的某些网页具有 URL 重定向状态。为了正常抓取这部分资源，需要蜘蛛识别和判断URL重定向，防止作弊。重定向可以分为三类：http 30x 重定向、元刷新重定向和js 重定向。另外，百度还支持Canonical标签，可以看作是间接重定向的效果。

　　4. 获取优先级分配

　　由于互联网资源规模的巨大而快速的变化，搜索引擎几乎不可能全部捕获并合理更新以保持一致性。这就需要爬虫系统设计一套合理的抓包。采取优先部署策略。主要包括：深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、社交分享引导策略等，每种策略各有优缺点。在实际情况下，往往会采用多种策略组合使用，以达到最佳捕获效果。

　　5.重复网址过滤

　　爬虫在爬取过程中需要判断一个页面是否被爬过。如果还没有被抓取，则抓取该网页并将其放入抓取的URL集合中。判断是否被爬取，最重要的就是快速搜索对比，还涉及到url归一化识别。例如，如果一个 url 收录大量无效参数，但实际上是同一个页面，它将被视为相同的 url。 .

　　6.获取暗网数据

　　互联网上存在大量搜索引擎暂时无法抓取的数据，称为暗网数据。一方面，网站的大量数据存在于网络数据库中，蜘蛛很难通过抓取网页获取完整的内容；另一方面，由于网络环境，网站本身不符合规范，孤岛等，也会导致搜索引擎无法抓取。目前获取暗网数据的主要思路还是采用开放平台，采用数据提交方式，如“百度站长平台”、“百度开放平台”等。

　　7.捕捉反作弊

　　蜘蛛在爬行过程中，经常会遇到所谓的爬行黑洞或者面对大量低质量的页面。这就要求爬虫系统也要设计一个完整的爬虫防作弊系统。例如，分析url特征，分析页面大小和内容，分析与抓取规模对应的站点大小等。

　　百度蜘蛛爬取过程中涉及的网络协议

　　刚才提到百度搜索引擎会设计复杂的爬取策略。事实上，搜索引擎和资源提供者之间存在着相互依赖。搜索引擎需要站长为其提供资源，否则搜索引擎将无法满足用户。检索需求；站长需要通过搜索引擎推广他们的内容以获得更多的受众。蜘蛛爬取系统直接涉及到互联网资源提供者的利益。为了让搜索引擎和站长实现双赢，双方在抓取过程中必须遵守一定的规定，以方便双方的数据处理和连接。在这个过程中遵循的规范就是我们在日常生活中所说的一些网络协议。

　　以下是一个简短的列表：

　　Baiduspider 爬行频率原理及调整方法

　　baiduspider根据上面网站设置的协议抓取站点页面，但不可能对所有站点一视同仁。它会考虑网站的实际情况，确定一个抓取额度，每天对网站内容进行定量抓取，也就是我们经常提到的抓取频率。那么百度搜索引擎用什么索引来判断一个网站的爬取频率呢？主要有四个指标：

　　网站更新频率：更新来得快，更新来得慢，直接影响百度蜘蛛的访问频率

　　网站更新质量：更新频率增加，只引起了百度蜘蛛的关注。百度蜘蛛对质量有严格的要求。如果网站每天更新的大量内容被百度蜘蛛判断为低质量页面，那仍然没有意义。

　　连通性：网站应该是安全稳定的，对百度蜘蛛保持开放。关闭百度蜘蛛可不是什么好事。

　　网站评价：百度搜索引擎对每个网站都会有一个评价，这个评价会根据网站情况不断变化，是百度搜索引擎对网站的基本评分（不是百度权重外界），是百度内部非常机密的数据。网站评分从不单独使用，会与其他因素和阈值共同影响网站的爬取和排名。

　　爬取的频率间接决定了收录可以创建多少个页面网站。如果这样一个重要的值不符合站长的期望，如何调整？百度站长平台提供了爬频工具()，并已完成多次升级。该工具除了提供爬行统计外，还提供了“频率调整”功能。站长可根据实际情况要求百度蜘蛛增加或减少对百度站长平台的访问量。该工具将根据网站管理员的意愿和实际情况进行操作。调整。

　　百度蜘蛛抓取异常的原因

　　部分网页内容质量高，用户可以正常访问，但百度蜘蛛却无法正常访问和抓取，导致搜索结果覆盖率不足，对百度搜索引擎和网站都是一种损失。百度把这种情况称为“抓取异常”。对于大量内容无法正常抓取的网站，百度搜索引擎会认为网站在用户体验上存在缺陷，会降低对网站的评价，并在一定程度上受到负面影响抓取、索引和排序。影响最终会影响网站从百度获得的流量。

　　下面向站长介绍一些常见的抓取异常原因：

　　1.服务器连接异常

　　服务器连接异常有两种情况：一种是站点不稳定，百度蜘蛛尝试连接你的网站服务器时暂时无法连接；另一个是百度蜘蛛一直无法连接到你的网站服务器。 .

　　服务器连接异常的原因通常是你的网站server 太大，过载。也有可能你的网站运行不正常。请检查网站的web服务器（如apache、iis）是否安装运行正常，并使用浏览器查看主页是否可以正常访问。您的网站和主机也可能屏蔽了百度蜘蛛的访问，您需要检查网站和主机的防火墙。

　　2.网络运营商异常

　　有两种类型的网络运营商：电信和中国联通。百度蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况，您需要联系网络服务运营商，或者购买双线服务空间或者购买cdn服务。

　　3.DNS 异常

　　当百度蜘蛛无法解析你的网站IP时，会出现DNS异常。可能是你的网站IP地址错误，或者域名服务商屏蔽了百度蜘蛛。请使用 WHOIS 或主机检查您的网站 IP 地址是否正确且可解析。如果不正确或无法解决，请联系域名注册商更新您的IP地址。

　　4.IP 封禁

　　IP禁止是：限制网络的出口IP地址，禁止该IP段的用户访问内容，这里特指禁止BaiduspiderIP。仅当您的网站不希望百度蜘蛛访问时才需要此设置。如果您想让百度蜘蛛访问您的网站，请检查相关设置中是否错误添加了百度蜘蛛IP。也有可能你网站所在的空间服务商被封禁了百度IP，则需要联系服务商更改设置。

　　5.UA 禁止

　　UA是User-Agent，服务器通过UA识别访问者的身份。当网站返回异常页面（如403、500）或跳转到另一个页面）访问指定的UA时，即为UA阻塞。这个只有在你的网站不希望百度蜘蛛访问设置时才需要，如果你想让百度蜘蛛访问你的网站，useragent相关设置中是否有百度蜘蛛UA，及时修改。

　　6.死链

　　页面无效，无法向用户提供任何有价值信息的页面为死链接，包括协议死链接和内容死链接两种形式：

　　7.异常跳转

　　将网络请求重定向到另一个位置是一种跳转。异常跳转是指以下几种情况：

　　判断新链接的重要性

　　好的，上面我们提到了影响百度蜘蛛正常抓取的原因。现在来说说百度蜘蛛的一些判断原则。在建库链接之前，百度蜘蛛会对页面进行初步的内容分析和链接分析，通过内容分析判断该网页是否需要建索引库，通过链接分析找到更多的网页，然后抓取更多的网页-analysis-——是否建库&发现新链接的过程。理论上，百度蜘蛛会检索到新页面上所有可以“看到”的链接。那么，面对众多的新链接，百度蜘蛛是根据什么判断哪个更重要呢？两个方面：

　　一、对用户的价值

　　独特的内容，百度搜索引擎喜欢独特的内容

　　主体突出，不要表现出网页的主要内容不突出，被搜索引擎误判为空的短页而未被抓取

　　内容丰富

　　适合广告

　　二、链接的重要性

　　目录级别-浅层优先

　　该链接在网站中的受欢迎程度

　　百度优先建设重要图书馆的原则

　　百度蜘蛛抓取的页面数量并不是最重要的。重要的是一个索引数据库建了多少页，也就是我们常说的“建库”。众所周知，搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库，普通的网页会留在普通的图书馆，更糟糕的网页会被分配到低级别的图书馆作为补充资料。目前60%的搜索需求只调用重要的索引库就可以满足，这就解释了为什么一些网站的收录quantity超高流量一直不理想。

　　那么，哪些网页可以进入优质索引库呢？其实总的原则是一个：对用户有价值。包括但不仅限于：

　　及时性和有价值的页面：在这里，及时性和价值是平行的关系，两者缺一不可。有的网站为了生成时间敏感的内容页面，做了很多采集的工作，结果产生了一堆百度不想看到的毫无价值的页面。

　　内容优质的专页：专页的内容不一定是原创，也就是可以很好的整合各方内容，或者添加一些新鲜的内容，比如意见、评论等。为用户提供更丰富全面的内容。

　　高价值原创内容页：百度将原创定义为文章经过一定成本和大量经验形成的。不要问我们伪原创是不是原创。

　　重要的个人页面：这里只是一个例子。科比已经在新浪微博上开设了一个账户。即使他不经常更新，它仍然是百度的一个极其重要的页面。

　　哪些网页不能建索引库

　　上述优质网页收录在索引库中。其实网上的网站大部分根本就不是百度收录。不是百度没找到，而是建库前的筛选链接被过滤掉了。那么一开始就过滤掉了什么样的网页：

　　内容重复的网页：对于已经在网上的内容，百度当然不需要收录。

　　正文内容较短的网页

　　一些作弊页面

　　搜索引擎索引系统概述

　　众所周知，搜索引擎的主要工作流程包括：抓取、存储、页面分析、索引、检索等主要流程。上一章我们主要介绍了爬取和存储链接中的一些内容。本章简要介绍索引系统。

　　在以亿为单位的网页库中搜索某个特定的关键词，就像大海捞针。有可能在一定时间内完成搜索，但用户不能等待。从用户体验的角度来说，一定要在毫秒级别给用户满意的结果，否则只会流失用户。我们如何才能满足这一要求？

　　如果我们知道用户搜索到的关键词的哪些页面（查询被剪切后）出现在哪些页面，那么用户检索的过程可以想象成一个收录查询不同部分的页面集合词切过程，检索变成页面名称之间的比较和交叉。这样，以毫秒为单位的1亿次检索成为可能。这就是所谓的倒排索引和交叉检索的过程。创建倒排索引的基本过程如下：

　　页面分析的过程其实就是对原创页面的不同部分进行识别和标记，例如：标题、关键词、内容、链接、锚点、评论、其他不重要的区域等；

　　分词的过程其实包括分词、分词、同义词转换、同义词替换等，以一个页面标题的分词为例，得到的数据会是这样的数据：term text, termid, part词性、词性等；

　　前面的准备工作完成后，下一步就是创建倒排索引，形成{termàdoc}。下图展示了索引系统中的倒排索引过程。

　　倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来，我们要介绍索引系统建立倒排索引的重要过程——存储和写入。

　　倒排索引存储和写入的重要过程

　　在倒排索引建立的最后，索引系统还需要有一个存储和写入的过程，并且为了提高效率，这个过程还需要将所有的词条和偏移量保存在文件头中，并且压缩数据。我不会在这里提到太多的技术性。下面简单介绍一下索引后的检索系统。

　　检索系统主要由五部分组成，如下图所示：

　　影响搜索结果排名的因素

　　上面的内容看起来有点深奥，因为涉及到很多技术细节，这里只能说一下。然后说一下大家最感兴趣的排序问题，用户输入关键词进行搜索。百度搜索引擎在排序链接上要做两件事。一是从索引库中提取相关网页，二是根据不同维度的得分对提取的网页进行整合。种类。 “不同维度”包括：

　　以上是百度搜索引擎在决定搜索结果排名时考虑的六大原则。那么六项原则的重点是什么？在实际应用中，哪个原理占的比例最大？事实上，这里没有明确的答案。在百度搜索引擎的早期，这些门槛确实是比较固定的。例如，“相关性”可以占整体排名的 70%。但是，随着互联网的不断发展，检索技术的进步，网页数量的爆炸式增长，相关性不再是问题。因此，百度搜索引擎引入了机器学习机制，让程序自动生成计算公式，促进更合理的排名策略。

　　低质量网页的狙击策略-石榴算法

　　我们理解网站生命发展需要资金支持，我们从不反对网站添加各种合法广告。不要问我们“我们网站加入XX联盟的广告不会被处罚”之类的问题。有的网站在百度上排名不错，但在页面上投放了大量损害用户体验的广告，严重影响了百度搜索引擎的用户体验。为此，百度质量团队于2013年5月17日发布公告：针对低质量网页推出石榴算法，旨在打击含有大量不良广告，阻碍用户正常浏览的页面，尤其是带有大量低质量广告和混乱页面的弹出窗口。主要内容收录垃圾广告的页面。

　　如下网页截图所示，用户需要很长时间才能找到真正的下载地址，百度无法接受。

　　百度质量团队希望站长多站在用户的角度考虑长远发展，在不影响用户体验的前提下合理投放广告，赢得用户的长期青睐是网站成长的基础和发展。 .

　　外链的作用（2014版）

　　曾经，“内容为王，超级链为王”的说法已经流行多年。通过超链接的分数计算反映了网页的相关性和重要性。它确实是搜索引擎用来评估网页的重要参考因素之一。会直接参与搜索结果排序的计算。然而，随着越来越多的SEO人员了解这项技术，Hyperlink作为一票的意义逐渐失去了意义。无论是谷歌还是百度，对超链接数据的依赖越来越低。那么，超链接现在扮演什么角色？

　　吸引蜘蛛爬取：虽然百度在挖掘新的好网站、开放多个数据提交入口、避开社交发现渠道等方面下足了功夫，但超链接仍然是被发现最多的收录link 重要入口。

　　将相关信息传递给搜索引擎：百度不仅会使用TITLE、页面关键词、H标签等对网页内容进行判断，还会使用锚文本辅助判断。将图片作为点击入口的超链接，也可以通过alt属性和title标签向百度发送感受。

　　提升排名：百度搜索引擎虽然减少了对超链接的依赖，但对超链接的认可度从未降低，对优质链接、正常链接、垃圾链接、作弊链接制定了更严格的标准。对于作弊链接，除了对链接进行过滤和清理之外，对链接的受益站点也进行一定程度的处罚。因此，百度仍然欢迎高质量的链接。

　　内容分享与口碑：优质内容被广泛传播，网站可能不会因此获得多少流量，但如果内容足够，也可以建立自己的品牌效应。严格来说，这不属于超链接的作用。在百度眼中，网站的品牌远比超链接重要。

　　最前沿的买卖超链接-绿萝算法1.0&2.0

　　百度质量团队于2013年2月19日发布公告，推出绿萝算法，再次强调买卖链接行为：一方面，买卖链接行为影响用户体验，干扰搜索引擎算法；另一方面，它让投机者受益，超级链中介是有利可图的，而真正勤于做好工作的站长在这种恶劣的互联网超链接环境中无法获得应有的回报。因此，以下三类网站将在清除买卖链接行为的外链计算的基础上受到不同程度的影响：

　　1. 超链中介：超链应该是网上比较优质的推荐。是普通用户和网站之间对页面内容和网站价值的肯定，但现在各种超链作弊行为让真正的肯定成为了一些人谋取利益的垫脚石。用户无法根据链接推荐找到自己需要的优质资源，严重干扰了搜索引擎对网站的评价。超链中介是这个畸形的超链市场形成的邪恶之花。我们有义务维护Hyperchain的纯洁性以保护用户的利益，同时我们也有责任引导站长朋友停止花费不必要的费用，因此Hyperchain中介将在我们的目标范围内。

　　2. 卖链接网站: 有很多方法可以在网站上赚钱。用优质的原创内容吸引老用户，引入优质广告资源，甚至举办线下活动。这些盈利方式是我们乐于做的。我看到的是网站的真正价值。但部分网站内容基本采集来自网络直播，靠卖超链接位置；一些机构网站可能会被链接中介租用出售链接位置，使得超链接市场越来越泡沫。本次调整也会对此类网站产生影响。

　　3.网站购买链接：百度一直在保护和培育优质网站。这是从用户需求和创业站长角度来看的必然结果。然而，有的站长并没有把精力花在提升网站的质量上，而是选择花招，用超链接换钱，欺骗搜索引擎，欺骗用户。对于没有太多资源和钱花在这些费用上的创业站长来说，也是一种无形的伤害。如果不加以遏制，劣币驱逐良币，势必导致互联网环境更糟。此类网站本身的调整也会受到影响。

　　以上是百度质量团队第一次推出绿萝算法时的具体情况，后来称为绿萝算法1.0。五个月后，百度质量团队再次推出了露露算法2.0，对明显的推广软文进行了更大更严格的处理。

　　处罚的重点是发布软文新闻网站，包括软文贸易平台和软文收入网站。处罚包括：

　　软文交易平台直接屏蔽；

　　对于软文posting 站，会根据不同程度进行处理。比如一条新闻网站，有发布软文但情节不严重的现象，网站在搜索系统中会降级；如*敏*感*词*域发布大量软文，则子域将被直接屏蔽。并清除百度新闻源；更重要的是，创建大量子域发布软文，这样整个主域都会被屏蔽。

　　对于软文beneficiary 站，网站的外链中存在少量软文外链，则该外链会被过滤掉权重计算系统，观察受益站一段时间内会视情况做进一步处理；网站外部链接中存在大量软文外链接，此时受益站点将被降级或直接屏蔽。

　　结构化数据——帮助网站获得更多点击

　　网页经历了爬取、建库、参与排序计算，最终呈现在搜索引擎用户面前。目前百度搜索左侧的结果有多种形式，如：风潮、品牌专区、自然结果等，自然结果如何获得更多点击量，是站长考虑的重要部分。

　　目前，自然结果分为两类，如下图所示。一是结构化呈现，形式多样。目前覆盖了80%的搜索需求，也就是80%的关键词都会有这种复杂的展示风格；第二种是摘要展示，最原创的展示方式，只有一个标题，两行摘要，部分链接。

　　显然，结构化呈现可以清晰地向用户传达信息，直击用户需求痛点，自然获得更好的点击。目前有几种结构化呈现方式：

　　那么网站站长如何才能获得有效的演示文稿：

AI时代内容工厂

百度搜索引擎优化原理(Spider抓取系统的基本框架增长，如何有效的获取并利用)

0 个评论

发起人

AI时代内容工厂

百度搜索引擎优化原理(Spider抓取系统的基本框架增长，如何有效的获取并利用)

0 个评论

发起人

相关问题