百度搜索引擎优化原理(《robots协议文件的写法及语法属性解释》的介绍)

优采云发布时间: 2022-02-19 14:22

　　(3）, UA 属性

　　UA是user-agent，是http协议中的一个属性。它代表终端的身份并向服务器指示我在做什么。然后服务器可以根据不同的身份做出不同的反馈结果。

　　(4）, 机器人协议

　　robots.txt是搜索引擎访问一个网站时首先访问的文件，要确定哪些允许爬取哪些禁止爬取，robots.txt必须放在网站下根目录，文件名应为小写。robots.txt的详细编写请参考马海翔的博客《Robots协议文件编写及语法属性说明》的相关介绍。百度严格遵守机器人协议。此外，它还支持网页内容添加了名为robots、index、follow、nofollow等指令的meta标签。

　　4、百度蜘蛛抓取频率原理及调整方法

　　百度蜘蛛根据上述网站设定的协议爬取网站页面，但不可能对所有网站一视同仁。它会综合考虑网站的实际情况来确定一个爬取配额，每天对网站内容进行定量爬取，也就是我们常说的爬取频率，百度搜索引擎用什么指标来确定一个< @网站? 主要有四个指标：

　　（1），网站更新频率：更新多频繁，更新慢少，直接影响百度蜘蛛的访问频率（详情请参考马海翔的博客《网站更新频率》对于网站相关介绍的影响）。

　　(2）, 网站更新质量：更新频率的提升正好吸引了百度蜘蛛的注意。百度蜘蛛对质量有严格的要求。如果网站每天更新很多内容还是被百度蜘蛛判断为低质量页面毫无意义。

　　(3）, Connectivity: 网站应该安全稳定，保持百度蜘蛛畅通，保持百度蜘蛛关闭不是好事。

　　（4），站点评价：百度搜索引擎会对每个站点进行评价，这个评价会根据站点情况而变化，这是百度搜索引擎对站点进行评分的依据（绝不是什么外界称百度权重)，是百度内部非常机密的数据，网站评分从不单独使用，会与其他因素和阈值共同影响网站的抓取和排名。

　　爬取频率间接决定了网站有多少页面可能被数据库收录。这么重要的值，如果不符合站长的期望，应该如何调整呢？百度站长平台提供抓取频率工具，不仅提供抓取统计，还提供“频率调整”功能。根据实际情况，站长向百度蜘蛛提出增加或减少百度站长平台访问量的请求。该工具将根据站长的意愿和实际情况进行调整。

　　5、百度蜘蛛爬取异常的原因

　　有一些网页内容优质，用户可以正常访问，但Baiduspider无法正常访问和爬取，导致搜索结果覆盖不足，对百度搜索引擎和网站来说都是一种损失。百度称这种情况为“抢”。例外”。

　　对于大量内容无法正常抓取的网站，百度搜索引擎会认为网站存在用户体验缺陷，在抓取方面降低网站的评价、索引和排序都会受到一定程度的负面影响，最终会影响到网站从百度获得的流量。

　　下面马海翔博客给站长们介绍一些常见的爬取异常原因：

　　(1），服务器连接异常

　　服务器连接异常有两种情况：一种是网站不稳定，百度蜘蛛在尝试连接你的网站服务器时暂时无法连接；另一个是百度蜘蛛一直无法连接到你网站的服务器。服务器。

　　服务器连接异常的原因一般是你的网站服务器太大超载，也可能是你的网站运行不正常，请检查网站的web服务器（ apache,iis)等安装运行正常，用浏览器查看主页面是否可以正常访问。你的网站和主机也有可能屏蔽了百度蜘蛛的访问，你需要检查网站和主机的防火墙。

　　(2），网络运营商异常

　　网络运营商有两种：中国电信和中国联通。百度蜘蛛无法通过中国电信或中国网通访问您的网站。如果出现这种情况，需要联系网络服务运营商，或者购买双线服务的空间或者购买cdn服务。

　　(3），DNS 异常

　　当百度蜘蛛无法解析您的网站 IP 时，会出现 DNS 异常。可能是你的网站IP地址错误，或者域名服务商封杀了Baiduspider。请使用WHOIS或host自行检查网站IP地址是否正确且可解析，如果不正确或无法解析，请联系域名注册商更新您的IP地址。

　　（4），IP 禁令

　　IP封禁是：限制网络的出站IP地址，禁止该IP段内的用户访问内容。在这里，百度蜘蛛IP是专门禁止的。仅当您的网站不希望百度蜘蛛访问时，才需要此设置。如果您想让百度蜘蛛访问您的网站，请检查相关设置中是否错误添加了百度蜘蛛IP，或者您的网站所在的空间服务商禁用了百度IP ，那么您需要联系服务人员更改设置。

　　(5）, UA 禁止

　　UA即User-Agent，服务器通过UA识别访问者。当网站返回异常页面（如403、500）或跳转到其他页面进行指定UA的访问时，属于UA禁令。当你的网站不想要百度蜘蛛时这个设置只有在访问时才需要，如果你想让百度蜘蛛访问你的网站，请检查useragent相关设置中是否有百度蜘蛛UA，并及时修改。

　　(6）, 死链接

　　已经无效且无法为用户提供任何有价值信息的页面为死链接，包括协议死链接和内容死链接两种形式：

　　①、协议死链接：页面的TCP协议状态/HTTP协议状态明确表示的死链接，如404、403、503状态等。

　　②。内容死链接：服务器返回正常状态，但内容已更改为与原创内容无关的不存在、已删除或需要权限等信息页面。

　　对于死链接，马海翔建议网站使用协议中的死链接，通过百度站长平台死链接工具提交给百度，这样百度可以更快的找到死链接，减少死链接对用户的负面影响，搜索引擎。

　　(7）, 异常跳转

　　将网络请求重定向到另一个位置是跳转，异常跳转是指以下几种情况：

　　①。当前页面为无效页面（删除内容、死链接等），直接跳转到上一个目录或首页，百度建议站长删除无效页面的入口超链接。

　　②、跳转到错误或无效页面。

　　注意：长期重定向到其他域名，如网站改域名，百度推荐使用301重定向协议进行设置。

　　(8），其他例外

　　1. 百度引荐异常：网页返回的行为与来自百度引荐的正常内容不同。

　　2、百度UA异常：网页返回百度UA的行为与页面原创内容不同。

　　3、JS跳转异常：网页加载了百度无法识别的JS跳转代码，使用户通过搜索结果进入页面后跳转。

　　④。压力过大导致的意外封禁：百度会根据网站规模、流量等信息自动设置合理的抓取压力。保护性意外禁令。在这种情况下，请在返回码中返回 503（表示“服务不可用”），这样百度蜘蛛会在一段时间后尝试抓取链接。如果网站空闲，将被成功抓取。

　　6、判断新链接的重要性

　　好了，上面我们讲了影响百度蜘蛛正常爬取的原因，下面说一下百度蜘蛛的一些判断原则。

　　在建库链接之前，百度蜘蛛会对页面进行初步的内容分析和链接分析，通过内容分析判断页面是否需要建索引库，通过链接分析发现更多页面，然后爬取更多页面——分析——是否建立图书馆并发现新链接的过程。

　　理论上，Baiduspider 会爬回新页面上所有“看到”的链接。那么，面对众多的新链接，百度蜘蛛如何判断哪个更重要呢？

　　(1），对用户的价值

　　①、独特的内容，百度搜索引擎喜欢独特的内容。

　　②、主体突出，不要出现网页主体内容不突出而被搜索引擎误判为未抓取的空短页。

　　③、内容丰富。

　　④、广告适当。

　　(2）, 链接重要性

　　①、目录级——浅优先。

　　②、站内链接的人气。

　　7、百度优先建设重要库的原则

　　百度蜘蛛抓取的页数并不是最重要的，重要的是建了多少页到索引库中，也就是我们常说的“建库”。众所周知，搜索引擎的索引库是分层的，优质的网页会被分配到重要的索引库，普通网页会留在普通库中，较差的网页会被分配到低级图书馆作为补充材料。目前60%的检索需求只能通过调用重要的索引库来满足，这就解释了为什么有的网站的收录的高流量一直不尽人意。

　　那么，哪些页面可以进入优质索引库呢？在马海翔看来，其实总的原则是一个：对用户的价值，包括但不只是：

　　(1），时间敏感且有价值的页面

　　在这里，及时性和价值并列，两者缺一不可。有些网站为了生成时间敏感的内容页面做了很多采集的工作，导致一堆毫无价值的页面，百度不想看到。

　　（2），优质内容的特殊页面

　　话题页的内容不一定是完整的原创，也就是可以很好的融合各方的内容，或者加入一些新鲜的内容，比如观点、评论，给用户一个更丰富更全面的内容.

　　（3），高价值的原创内容页面

　　百度把原创定义为文章是花费一定的成本，积累了很多经验后形成的，不要再问我们伪原创是不是原创了（具体请参考到马海翔的博客《搜索引擎视角下的文章Content原创问题》相关介绍。

　　（4），重要的个人页面

　　这里只是一个例子，科比在新浪微博上开了一个账号，即使他不经常更新，对于百度来说仍然是一个极其重要的页面。

　　8、哪些网页不能被索引

　　上面提到的优质网页都被收录进了索引库，那么其实网上的大部分网站都不是百度出的收录。不是百度没找到，而是建库前的筛选过程中被过滤掉了。那么什么样的网页在第一个链接就被过滤掉了呢？

　　（1），有重复内容的网页：对于互联网上已有的内容，百度不需要收录。

　　(2），主要内容为空且短的网页，包括：

　　①。有些内容使用了百度蜘蛛无法解析的技术，如JS、AJAX等，虽然用户可以访问丰富的内容，但还是会被搜索引擎抛弃。

　　②。加载速度过慢的网页也可能被视为空的短页。请注意，广告的加载时间计入网页的总加载时间。

　　③。许多主体无关紧要的网页即使被爬回来也会被丢弃在这个链接中。

　　（3），一些作弊页面。

　　二、搜索排序

　　众所周知，搜索引擎的主要工作流程包括爬取、存储、页面分析、索引、检索等几个主要流程。

　　1、索引系统

　　在以十亿为单位的网页库中搜索特定的关键词就像大海捞针一样。有可能在一定时间内完成搜索，但用户不能等待。从用户体验的角度来看，我们必须在毫秒级别给出。用户对结果满意，否则用户只能流失，怎么才能达到这个要求呢？

　　如果可以知道用户正在寻找的关键词（查询被分割后）中出现了哪些页面，那么用户检索的过程可以想象为收录不同部分的页面集合相交的过程的查询。, 检索变成了页面名称之间的比较和交集，使得以毫秒为单位的数十亿单位的检索成为可能。这就是所谓的倒排索引和交集检索的过程，如下：建立倒排索引的基本过程：

　　(1），页面分析的过程其实就是对原创页面的不同部分进行识别和标记，例如：标题、关键词、内容、链接、锚点、评论、其他非重要区域等。

　　(2），分词的过程其实包括分词、分词、同义词转换、同义词替换等。以一个页面的标题切分为例，得到的数据会如：词条文本， termid、词性、词性等（详见马海翔博客《什么是百度中文分词技术》的介绍）。

　　(3），前面的准备工作完成后，下一步就是建立倒排索引，形成{termàdoc}。下图是索引系统中倒排索引的流程：

　　倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来，我们将介绍在索引系统中建立倒排索引的重要过程——入库和写入。

　　2、倒排索引的重要过程——存储和写入

　　索引系统在倒排索引建立的最后还需要一个入库和写库的过程。为了提高效率，这个过程还需要把所有的term和offset都保存在文件头中，并对数据进行压缩，涉及到这里技术性就不提了。在这里，马海翔的博客也简单介绍了索引后的检索系统。

　　检索系统主要包括五个部分，如下图所示：

　　（1），查询串切分切分就是对用户的查询词进行切分，为后续查询做准备。以“地铁10号线故障”为例，可能的切分如下（同义词问题暂时略过):

　　10 0x123abc

　　编号 0x13445d

　　行 0x234d

　　地铁 0x145cf

　　故障 0x354df

　　(2），找出收录每个词条的文档集，即找到候选集，如下：

　　0x123abc 1 2 3 4 7 9…..

　　0x13445d 2 5 8 9 10 11…

　　...

　　(3），求交集，上面提到的交集，文档2和文档9可能是我们需要找的，整个交集的过程其实关系到整个系统的性能，其中包括缓存的使用和其他方式来执行性能优化。

　　（4），各种过滤，例子可能包括过滤掉死链接，重复数据，*敏*感*词*，垃圾邮件结果你知道的！

　　（5），最终排序，首先对最符合用户需求的结果进行排序，可能收录有用的信息如：网站的整体评价、网页质量、内容质量、资源质量、匹配度、分散度、时效性等

　　3、影响搜索结果排名的因素

　　上面的内容似乎有点深奥。因为涉及到很多技术细节，马海翔也只能在这里说一说。接下来马海翔会讲大家最感兴趣的排序问题。用户输入关键词进行搜索，百度搜索引擎在排序过程中有两件事要做。首先是从索引数据库中提取相关网页。二是根据不同维度的得分对提取的网页进行综合排序。“不同维度”包括：

　　(1）, Relevance：网页内容与用户检索需求匹配的程度，比如网页中收录的用户勾选的关键词的数量，以及这些< @关键词出现；外部网页指向该页面使用的 Anchor 文本等。

　　（2），权威：用户喜欢网站提供的内容具有一定的权威性。相应地，百度搜索引擎也信任优质权威网站提供的内容。

　　(3），时效性：时效性结果是指新的网页承载新鲜的内容。目前，时效性结果在搜索引擎中越来越重要。

　　（4），重要性：网页内容的重要性或受欢迎程度与用户的检查需求匹配程度。

　　(5），丰富性：丰富性看似简单，却是一个覆盖面很广的命题。可以理解为网页内容丰富，完全可以满足用户的需求；它不仅可以满足既满足用户的单一需求，又满足用户的扩展需求。

　　(6），流行度：指的是网页是否流行。

　　以上就是百度搜索引擎在确定搜索结果排名时考虑的六大原则。六大原则的重点是什么？哪个原理在实际应用中所占的比例最大？其实这里并没有明确的答案。

　　在百度搜索引擎的早期，这些门槛确实是比较固定的。例如，“相关性”在整体排名中的权重可以占到 70%。然而，随着互联网的不断发展和检索技术的进步，网页的数量呈爆炸式增长。，相关性不再是问题，所以百度搜索引擎引入了机器学习机制，让程序自动生成计算公式，推动排序策略更加合理。

　　4、低质量网页狙击策略——石榴算法

　　我们理解网站需要资金支持才能生存和发展，我们从不反对网站添加各种合法广告。不要再问我们，“我们会不会网站加XX联盟广告，会受到惩罚？” 针对此类问题，一些网站虽然在百度排名不错，但在页面上投放了大量不利于用户体验的广告，严重影响了百度搜索引擎用户的体验。

　　为此，百度质量团队于2013年5月17日发布公告：针对低质量网页启动石榴算法，旨在打击含有大量不良广告、妨碍用户正常浏览的页面，特别是弹出大量低质量广告和混乱页面。垃圾广告主要内容页面（详见马海翔博客《百度石榴算法上线对站长有何影响？》的介绍）。

　　百度质量团队希望站长能从用户的角度出发，考虑长远发展，在不影响用户体验的情况下合理投放广告，赢得用户长期青睐是网站发展的基础和成长。

　　三、外部投票

　　曾经，“内容为王，外链为王”的说法流行了多年。通过计算超链接的得分来反映网页的相关性和重要性。它确实是搜索引擎评估网页的重要参考因素之一。它将直接参与搜索结果的排名计算。

　　1、外部链接的作用

　　随着这项技术被越来越多的SEO人员所了解，超链接也逐渐失去了投票的意义。不管是谷歌还是百度，对超链接数据的依赖程度越来越低，那么，现在，超链接链的作用是什么？

　　(1），吸引蜘蛛去抓

　　虽然百度在发掘新的好网站方面下功夫，开放多个数据提交入口，避开社交发现渠道，但超链接仍然是发现收录链接的最重要入口。

　　(2），将相关信息传递给搜索引擎

　　除了通过TITLE、页面关键词、H标签等来判断网页内容外，百度还会使用锚文本来辅助判断，使用图片作为点击进入的超链接，也可以通过alt属性和title标签。百度传递感情。

　　(3），提高排名

　　百度搜索引擎虽然减少了对超链的依赖，但对超链的认可度从未下降，对优质链接、正常链接、垃圾链接和作弊链接制定了更严格的标准（详见马海翔博客“垃圾链接”）。它是什么？”）。

　　对于作弊链接，除了对链接进行过滤和清洗外，还对链接的受益站点进行了一定的惩罚。相应地，百度依然欢迎优质链接。

0

2022-02-19

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索引擎优化原理(《robots协议文件的写法及语法属性解释》的介绍)

0 个评论

发起人

AI时代内容工厂

百度搜索引擎优化原理(《robots协议文件的写法及语法属性解释》的介绍)

0 个评论

发起人

相关问题