《robots协议文件的写法及语法属性解释》的介绍

优采云发布时间: 2021-07-04 05:14

　　(3）, UA 属性

　　UA，即user-agent，是http协议中的一个属性，代表终端的身份，向服务器展示我在做什么，服务器可以根据不同的身份做出不同的反馈结果。

　　(4），机器人协议

　　robots.txt 是搜索引擎访问网站时要访问的第一个文件。用于确定哪些允许爬取，哪些禁止爬取。 Robots.txt必须放在网站根目录下，文件名要小写。详细robots.txt编写请参考马海翔的博客《Robots协议文件编写及语法属性说明》。百度严格遵守机器人协议。此外，它还支持添加到网页内容。名为robots、index、follow、nofollow等指令的元标签。

　　4、Baiduspider 抓取频率原理及调整方法

　　百度蜘蛛根据上面网站设置的协议抓取站点页面，但不可能对所有站点一视同仁。会综合考虑网站的实际情况确定一个爬取额度，每天对网站内容进行定量的爬取，也就是我们经常提到的爬取频率，那么百度搜索引擎是用什么指标来确定一个@k14的爬取频率的呢？ @？主要有四个指标：

　　（1）、网站更新频率：更新来得快，更新来得慢，直接影响百度蜘蛛的访问频率（详见马海翔博客《网站更新频率对@的影响》） k14@"相关介绍).

　　(2）、网站更新质量：更新频率增加，只引起了百度蜘蛛的关注。百度蜘蛛对质量要求严格。如果网站每天更新大量内容，百度蜘蛛确定是一个低质量的页面，它仍然没有意义。

　　（3），连通性：网站要安全稳定，对百度蜘蛛保持开放。经常保持百度蜘蛛不是什么好事。

　　（4），网站评价：百度搜索引擎对每个网站都会有一个评价，这个评价会根据网站情况不断变化，是百度搜索引擎对网站的基本评分（不是外面的什么）世界称百度权重）是百度内部非常保密的数据，网站评分从来不单独使用，会配合其他因素和阈值影响网站的爬取和排名。

　　爬取的频率间接决定了收录可以建多少页网站。如果这样一个重要的值不符合站长的期望，如何调整？百度站长平台提供了一个爬取频率的工具。除了爬行统计外，该工具还提供了“频率调整”功能。站长可根据实际情况要求百度蜘蛛增加或减少对百度站长平台的访问量。工具会根据站长意愿和实际情况进行调整。

　　5、百度蜘蛛抓取异常的原因

　　有些网页内容质量高，用户可以正常访问，但百度蜘蛛却无法正常访问和抓取，导致搜索结果覆盖率不足，对百度搜索引擎和网站都是一种损失。百度把这种情况称为“抓取异常”。

　　对于大量内容无法正常抓取的网站，百度搜索引擎会认为网站存在用户体验缺陷，会降低对网站的评价，影响抓取、索引, 并排序。负面影响的程度最终会影响网站从百度获得的流量。

　　下面的马海翔博客向站长介绍了一些常见的爬取异常的原因：

　　（1），服务器连接异常

　　服务器连接异常有两种情况：一种是站点不稳定，百度蜘蛛尝试连接你的网站服务器时暂时无法连接；另一个是百度蜘蛛一直无法连接到你的网站服务器。 .

　　服务器连接异常的原因通常是你的网站服务器太大，过载。也可能是你的网站没有正常运行。请检查网站web服务器（如apache、iis）是否安装运行正常，并使用浏览器检查主页是否可以正常访问，你的网站和主机也可能屏蔽了百度蜘蛛的访问，你需要检查网站和主机的防火墙。

　　（2），网络运营商异常

　　网络运营商分为电信和联通两种。百度蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况，您需要联系网络服务运营商或购买双线服务的空间或购买cdn服务。

　　（3），DNS 异常

　　当百度蜘蛛无法解析你的网站IP时，会出现DNS异常。可能是你的网站IP地址错误，或者域名服务商屏蔽了百度蜘蛛。请使用WHOIS或host自行查询网站IP地址是否正确且可解析，如不正确或无法解析，请联系域名注册商更新您的IP地址。

　　(4），IP被封

　　IP禁令是：限制网络的出口IP地址，禁止该IP段的用户访问内容。这里特指封禁BaiduspiderIP。仅当您的网站不希望百度蜘蛛访问时才需要此设置。如果您想让百度蜘蛛访问您的网站，请检查是否在相关设置中错误添加了百度蜘蛛IP，或者您网站所在的空间服务提供商被封禁了百度IP，则需要联系服务提供商进行更改设置。

　　（5），UA 禁止

　　UA是User-Agent，服务器通过UA识别访问者的身份。当网站返回异常页面（如403、500）或响应指定的UA访问跳转到另一个页面时，即为UA阻塞。仅当您的网站不希望百度蜘蛛访问设置，如果想让百度蜘蛛访问你的网站，useragent相关设置中是否有百度蜘蛛UA，及时修改。

　　(6），死链接

　　页面无效，无法向用户提供任何有价值信息的页面为死链接，包括协议死链接和内容死链接两种形式：

　　①、协议死链接：由页面的TCP协议状态/HTTP协议状态明确指示的死链接，如404、403、503状态等。

　　②、内容死链：服务器返回状态是正常的，但是内容已经变成不存在、删除或者需要权限等信息页面无关原创内容。

　　对于死链，马海翔建议网站使用协议死链，通过百度站长平台死链工具提交给百度，这样百度可以更快的找到死链，减少死链对用户的负面影响，搜索引擎。影响。

　　(7），异常跳转

　　将网络请求重定向到其他位置是一种跳跃。异常跳转是指以下几种情况：

　　①。当前页面为无效页面（内容已被删除、死链接等）。直接跳转到上一个目录或主页。百度建议站长删除无效页面的入口超链接。

　　②、跳转到错误或无效页面。

　　注意：长期重定向到其他域名，如网站改域名，百度建议使用301重定向协议进行设置。

　　（8），其他例外

　　①。针对百度引用的异常：从百度返回引用的网页行为与正常内容不同。

　　②。针对百度UA的异常：返回百度UA的网页行为与页面原创内容不同。

　　③、JS跳转异常：网页加载了百度无法识别的JS跳转代码，导致用户通过搜索结果进入页面后跳转。

　　④。因压力过大导致的偶然封禁：百度会根据网站规模、流量等信息自动设置合理的爬取压力，但在异常情况下，如压控失败，服务器偶尔会跟随自己的负载被封禁。在这种情况下，请在返回码中返回503（意思是“ServiceUnavailable”），这样百度蜘蛛会在一段时间后再次尝试抓取该链接。如果网站空闲，则抓取成功。

　　6、判断新链接的重要性

　　好的，上面我们提到了影响百度蜘蛛正常爬取的原因，现在我们来谈谈百度蜘蛛的一些判断原则。

　　建库链接前，百度蜘蛛会对页面进行初步的内容分析和链接分析。通过内容分析，判断网页是否需要建索引库，通过链接分析找到更多的网页，然后爬取更多的网页————分析——是否建库&发现新链接的过程。

　　理论上，百度蜘蛛会检索新页面上所有“见过”的链接。那么，面对众多的新链接，百度蜘蛛是根据什么判断哪个更重要呢？

　　(1），对用户的价值

　　①。独特的内容，百度搜索引擎喜欢独特的内容。

　　②。主体突出，不应出现网页主要内容不突出，被搜索引擎误判为空白短页而未被抓取的现象。

　　③，内容丰富。

　　④。广告很恰当。

　　(2），链接重要程度

　　①。目录级别-浅层优先。

　　②。链接在网站中的受欢迎程度。

　　7、百度的重要库优先原则

　　百度蜘蛛抓取的页面数量并不是最重要的。重要的是一个索引库建了多少页，也就是我们常说的“建库”。众所周知，搜索引擎的索引库是分层的，高质量的网页会被分配到重要的索引库，普通网页会留在普通库中，更糟糕的网页会被分配到较低的索引库中。水平库作为补充材料。目前60%的检索需求只能通过调用重要索引库来满足。只是解释了为什么有些网站的收录流量超高的流量一直不尽人意。

　　那么，哪些页面可以进入优质索引库呢？在马海翔看来，其实总的原则是一个：对用户的价值包括但不仅限于：

　　(1），时间敏感且有价值的页面

　　在这里，及时性和价值是平行关系，两者缺一不可。有的网站为了生成时间敏感的内容页面，做了很多采集的工作，结果是一堆百度不想看到的毫无价值的页面。

　　(2），高质量内容的专题页面

　　话题页的内容不一定是原创，也就是可以很好的整合各方内容，或者添加一些新鲜的内容，比如意见、评论，给用户更全面的内容。

　　(3），高颜值原创内容页

　　百度将原创定义为文章经过一定的成本和大量的经验积累形成的。不要问我们伪原创是不是原创（具体可以参考马海翔的博文《从搜索引擎看文章内容原创的相关介绍）。

　　(4），重要的个人主页

　　这里只是一个例子。科比已经在新浪微博上开设了一个账户。即使他不经常更新，它仍然是百度的一个极其重要的页面。

　　8、哪些网页不能建索引库

　　上述优质网页均收录在索引库中。其实网上的网站大部分都不是百度收录搜到的。不是百度没找到，而是建库前的筛选链接被过滤掉了。什么类型的网页一开始就被过滤掉了？

　　（1），重复内容的网页：网上已有的内容无需百度收录。

　　（2），主要内容简短而空洞的网页，包括：

　　①部分内容使用了百度蜘蛛无法解析的技术，如JS、AJAX等，虽然用户访问时可以看到丰富的内容，但仍会被搜索引擎抛弃。

　　②。加载过慢的网页也可能被视为空的短页面。请注意，广告加载时间计入网页的整体加载时间。

　　③。很多主体不突出的网页，即使爬回来，也会在这个链接中被丢弃。

　　（3），一些作弊页面。

　　二、搜索排序

　　众所周知，搜索引擎的主要工作流程包括：抓取、存储、页面分析、索引、检索等主要流程。

　　1、索引系统

　　在以亿为单位的网页库中搜索某个特定的关键词，就像大海捞针。搜索可能会在一定时间内完成，但用户不能等待。从用户体验的角度来说，一定要在毫秒内给用户满意的结果，否则用户只会流失。我们如何才能满足这一要求？

　　如果我们知道用户搜索到的关键词的哪些页面（查询被剪切后）出现在哪些页面，那么用户搜索过程可以想象成一个收录查询词后不同部分的页面的集合cut 过程，检索成为页面名称之间的比较和交集。这样，毫秒级的以亿为单位的检索成为可能。这就是倒排索引和交叉检索的过程，通常称为以下创建倒排索引的基本过程：

　　(1），页面分析的过程其实就是对原创页面的不同部分进行识别和标记，比如：标题、关键词、内容、链接、锚点、评论、其他不重要的区域等。

　　(2），分词的过程其实包括分词、分词、同义词转换、同义词替换等。以页面标题的分词为例，得到的数据将是这样的数据：term text、termid、词性、词性等（详见马海翔博客《什么是百度中文分词技术》）。

　　（3），前面的准备工作完成后，下一步就是创建倒排索引，形成{termàdoc}。下图为索引系统中的倒排索引流程：

　　倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来，我们要介绍索引系统建立倒排索引的重要过程——存储和写入。

　　2、倒排索引存储和写入的重要过程

　　在倒排索引建立的最后，索引系统还需要有一个存储和写入的过程，并且为了提高效率，这个过程还需要将所有的词条和偏移量保存在文件头中，并且压缩数据。我不会在这里提到太多的技术性。这里，马海翔的博客也简单介绍了索引后的检索系统。

　　检索系统主要包括五个部分，如下图所示：

　　(1）,Query string分词就是将用户的查询词进行切分，为后续查询做准备。以“地铁10号线故障”为例，可能的分词如下（同义词问题暂时省略） ) :

　　100x123abc

　　没有。 0x13445d

　　行 0x234d

　　地铁 0x145cf

　　故障 0x354df

　　(2），找到收录每个term的文档集合，即找到候选集合，如下：

　　0x123abc123479.....

　　0x13445d25891011……

　　……

　　(3），求交际，上面的交际，文件2和文件9可能就是我们需要找的，整个交际过程其实关系到整个系统的性能，包括缓存的使用和其他方式。性能优化。

　　（4），各种过滤，示例可能包括过滤掉死链接、重复数据、*敏*感*词*、垃圾结果以及您所知道的！

　　(5），最终排名，将最符合用户需求的结果排在第一位，可能收录有用的信息如：网站的整体评价、网页质量、内容质量、资源质量、匹配度、分散程度、及时性等

　　3、影响搜索结果排名的因素

　　上面的内容好像有点深奥，因为涉及的技术细节比较多，所以马海翔只能说到这里，接下来马海翔就说说大家最感兴趣的排序问题。用户进入关键词搜索，百度搜索引擎排序链接有两件事要做。首先是从索引库中提取相关网页。二是根据不同维度的得分对提取的网页进行综合排序。 “不同维度”包括：

　　(1），相关性：网页内容与用户搜索需求的匹配程度，比如用户对网页中收录的关键词的查看次数，以及这些关键词出现的位置；外部网页指向使用锚文本等的页面

　　（2），权威：用户喜欢网站提供的内容，具有一定的权威性，因此百度搜索引擎也更相信优质权威网站提供的内容。

　　（3），时效性：时效性结果是指新出现的网页，网页承载着新鲜的内容。目前，时效性结果在搜索引擎中越来越重要。

　　（4），重要性：将网页内容与用户的检查需求相匹配的重要性或受欢迎程度。

　　(5），丰富性：丰富性看似简单，其实是一个覆盖面很广的命题，可以理解为网页内容丰富，完全可以满足用户的需求；不仅可以满足既能满足用户的单一需求，又能满足用户对扩展的需求。

　　（6），受欢迎程度：指网页是否受欢迎。

　　以上是百度搜索引擎在决定搜索结果排名时考虑的六大原则。那么六项原则的重点是什么？在实际应用中，哪个原理占的比例最大？其实这里并没有明确的答案。

　　在百度搜索引擎的早期，这些门槛确实是比较固定的。例如，“相关性”可以占整体排名的 70%。但是随着互联网的不断发展，检索技术的进步，网页数量的爆炸式增长，相关性不再是问题，于是百度搜索引擎引入了机器学习机制，让程序自动生成计算公式并推广更合理的排名策略。

　　4、低质量网络狙击策略-石榴算法

　　我们理解网站生命发展需要资金支持，我们从不反对网站添加各种合法广告。不要问我们“我们网站加了XX联盟的广告会被处罚”这样的问题，有些网站在百度上终于取得了较好的排名，但是在页面上放置了大量的广告，损害了访问用户的用户体验，严重影响了百度搜索引擎的用户体验。

　　为此，百度质量团队于2013年5月17日发布公告：针对低质量网页推出石榴算法。有垃圾广告的页面混淆了页面的主要内容（详见马海翔博客《百度石榴算法上线对站长有什么影响》的相关介绍）。

　　百度质量团队希望站长多站在用户的角度考虑长远发展，在不影响用户体验的前提下合理投放广告，赢得用户的长期青睐是网站发展和发展的基础生长。 .

　　三、外部投票

　　曾经，“内容为王，外链为王”的说法已经流行多年。网页的相关性和重要性通过超链接的计算来体现。它确实是搜索引擎用来评估网页的重要参考因素。一、直接参与搜索结果排序的计算。

　　1、外链的作用

　　随着越来越多的SEO人员了解这项技术，Hyperchain逐渐失去了投票的意义。无论是谷歌还是百度，对超链数据的依赖越来越低。那么，在 Now 中，Hyperlink 扮演什么角色？

　　(1），吸引蜘蛛爬行

　　尽管百度在挖掘新好网站、开放多个数据提交入口、避开社交发现渠道等方面做了很多努力，但超链接仍然是发现收录links的最重要入口。

　　(2），向搜索引擎传递相关信息

　　除了通过TITLE、页面关键词、H标签等判断网页内容外，百度还会使用锚文本辅助判断，使用图片作为点击入口的超链接，或者通过alt属性和标题标签与百度交流。

　　(3），提升排名

　　百度搜索引擎虽然减少了对超链接的依赖，但对超链接的认可度从未下降，对优质链接、正常链接、垃圾链接和作弊链接制定了更严格的标准（详情请参考马海翔的博客《什么是垃圾外链》相关介绍）。

　　对于作弊链接，除了对链接进行过滤之外，还会对链接的受益站点进行一定程度的处罚。因此，百度仍然欢迎高质量的链接。

0

2021-07-04

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

《robots协议文件的写法及语法属性解释》的介绍

0 个评论

发起人

AI时代内容工厂

《robots协议文件的写法及语法属性解释》的介绍

0 个评论

发起人

相关问题