解密seo：搜索引擎优化与网站成功战略(UA属性：UA即user-agent原则及调整方法可参考)

　　UA属性：UA是user-agent，是http协议中的一个属性。它代表终端的身份并向服务器显示我在做什么。然后服务器可以根据不同的身份做出不同的事情。反馈结果。

　　Robots 协议：robots.txt 是搜索引擎访问网站时要访问的第一个文件。用于确定哪些允许爬取，哪些禁止爬取。 robots.txt 必须放在网站root 目录下，文件名必须小写。详细的robots.txt编写请参考。百度严格执行机器人协议。此外，它还支持在网页内容中添加名为robots、index、follow、nofollow等指令的meta标签。

　　Baiduspider 爬行频率原理及调整方法

　　baiduspider按照上面网站设置的协议抓取站点页面，但不可能对所有站点一视同仁。它会综合考虑网站的实际情况，确定一个抓取额度，每天对网站内容进行定量抓取，也就是我们经常提到的抓取频率。那么百度搜索引擎用什么索引来判断一个网站的爬取频率呢？主要有四个指标：

　　1、网站更新频率：更新快，更新慢，直接影响百度蜘蛛的访问频率

　　2、网站更新质量：更新频率增加，刚好引起百度的关注。百度蜘蛛对质量有严格的要求。如果网站每天更新大量内容，百度蜘蛛判断为低质量页面仍然没有意义。

　　3、Connectivity：网站要安全稳定，保证百度蜘蛛畅通无阻。经常关闭百度蜘蛛可不是什么好事

　　4、网站评价：百度搜索引擎会对每个网站都有一个评价，这个评价会根据网站情况不断变化，是百度搜索引擎对该网站的基本评分（不是百度权重作为外界说。）是百度内部非常机密的数据。网站评分从不单独使用，会与其他因素和阈值共同影响网站的爬取和排名。

　　爬取的频率间接决定了收录可以建多少页网站。如果这样一个重要的值不符合站长的期望，如何调整？百度站长平台提供了爬频工具()，并已完成多次升级。该工具除了提供爬行统计外，还提供了“频率调整”功能。站长可根据实际情况要求百度蜘蛛增加或减少对百度站长平台的访问量。该工具将根据网站管理员的意愿和实际情况进行操作。调整。

　　百度蜘蛛抓取异常的原因

　　有些网页内容质量高，用户可以正常访问，但百度蜘蛛却无法正常访问和抓取，导致搜索结果覆盖率不足，对百度搜索引擎和网站都是一种损失。百度把这种情况称为“抓取异常”。对于大量内容无法正常抓取的网站，百度搜索引擎会认为网站在用户体验上存在缺陷，会降低对网站的评价，并在一定程度上受到负面影响抓取、索引和排序。影响最终会影响网站从百度获得的流量。

　　下面向站长介绍一些常见的抓取异常原因：

　　1、Server 连接异常

　　服务器连接异常有两种情况：一种是站点不稳定，百度蜘蛛尝试连接你的网站服务器时暂时无法连接；另一个是百度蜘蛛一直无法连接到你的网站服务器。 .

　　服务器连接不正常的原因通常是你的网站server 太大，过载。也可能是你的网站运行不正常。请检查网站的web服务器（如apache、iis）是否安装运行正常，并使用浏览器查看主页是否可以正常访问。您的网站和主机也可能屏蔽了百度蜘蛛的访问，您需要检查网站和主机的防火墙。

　　2、网络运营商例外：有两种类型的网络运营商：电信和中国联通。百度蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况，您需要联系网络服务运营商，或者购买双线服务的空间或购买CDN服务。

　　3、DNS 异常：当百度蜘蛛无法解析您的网站IP 时，会发生DNS 异常。可能是你的网站IP地址错误，或者域名服务商屏蔽了百度蜘蛛。请使用 WHOIS 或主机检查您的网站IP 地址是否正确且可解析。如果不正确或无法解决，请联系域名注册商更新您的IP地址。

　　4、IP禁令：IP禁令是：限制网络的出口IP地址，禁止该IP段的用户访问内容，这里特指禁止BaiduspiderIP。仅当您的网站不希望百度蜘蛛访问时才需要此设置。如果您想让百度蜘蛛访问您的网站，请在相关设置中检查是否错误添加了百度蜘蛛IP。也有可能你网站所在的空间服务商被封禁了百度IP，则需要联系服务商更改设置。

　　5、UA禁令：UA是User-Agent，服务器通过UA识别访问者的身份。当网站为特定的UA访问返回异常页面（如403、500）或跳转到另一个页面）时，即为UA阻塞。这个只有在你的网站不希望百度蜘蛛访问设置时才需要，如果你想让百度蜘蛛访问你的网站，useragent相关设置中是否有百度蜘蛛UA，及时修改。

　　6、死链：页面无效，无法向用户提供任何有价值信息的页面为死链接，包括协议死链接和内容死链接两种形式：

　　协议死链接：由页面的TCP协议状态/HTTP协议状态明确指示的死链接，如404、403、503状态。

　　内容死链接：服务器返回状态是正常的，但是内容已经变成不存在、删除或者需要权限信息的页面，与原内容无关。

　　对于死链接，我们建议网站使用协议死链接，通过百度站长平台-死链接工具提交给百度，这样百度可以更快的找到死链接，减少死链接对用户和搜索的负面影响引擎。影响。

　　7、Exception jump：将网络请求重定向到另一个位置是一个跳转。异常跳转是指以下几种情况：

　　1）当前页面无效（内容被删除、死链接等），直接跳转到上一目录或首页。百度建议站长删除无效页面的入口超链接

　　2）跳转到错误或无效页面

　　注意：长期重定向到其他域名，如网站改域名，百度建议使用301重定向协议进行设置。

　　8、其他例外：

　　1）Anomaly 针对百度引用：从百度返回引用的网页行为与正常内容不同。

　　2）Anomaly for 百度UA：返回百度UA的网页行为与页面原创内容不同。

　　3）JS跳转异常：网页加载了百度无法识别的JS跳转代码，导致用户通过搜索结果进入页面后跳转。

　　4）压力过大意外封禁：百度会根据网站规模、流量等信息自动设置合理的爬取压力。但是，在异常情况下，例如压力控制异常，服务器会根据自身的负载偶尔被禁止进行保护。在这种情况下，请在返回码中返回503（其含义是“服务不可用”），以便百度蜘蛛会在一段时间后再次尝试获取该链接。如果网站空闲，则获取成功。

　　判断新链接的重要性

　　好的，上面我们提到了影响百度蜘蛛正常爬取的原因，现在我们来谈谈百度蜘蛛的一些判断原则。在建库链接之前，百度蜘蛛会对页面进行初步的内容分析和链接分析，通过内容分析判断该网页是否需要建索引库，通过链接分析找到更多的网页，然后抓取更多的网页-analysis-——是否建库&找新链接流程。理论上，百度蜘蛛会检索新页面上所有“见过”的链接。那么，面对众多的新链接，百度蜘蛛是根据什么判断哪个更重要呢？两个方面：

　　一、对用户的价值：

　　1、独特的内容，百度搜索引擎喜欢独特的内容

　　2、主体突出，不要出现网页主要内容不突出而被搜索引擎误判为不可抓取的空白短页

　　3、丰富的内容

　　4、广告合适

　　二、链接的重要性：

　　1、Directory level-shallow first

　　2、链接在网站中的受欢迎程度

　　百度优先建设重要图书馆的原则

　　百度蜘蛛抓取的页面数量并不是最重要的。重要的是一个索引数据库建了多少页，也就是我们常说的“建库”。众所周知，搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库，普通的网页会留在普通的图书馆，更糟糕的网页会被分配到低级别的图书馆作为补充资料。目前60%的检索需求只调用重要的索引库就可以满足，这就解释了为什么有些网站的收录量超高高流并不理想。

　　那么，哪些网页可以进入优质索引库呢？其实总的原则是一个：对用户有价值。包括但不仅限于：

　　1.及时性和有价值的页面：在这里，及时性和价值是平行关系，两者缺一不可。有的网站为了生成时间敏感的内容页面，做了很多采集的工作，结果是一堆百度不想看到的毫无价值的页面。

　　2.优质内容的专题页：专题页的内容不一定是原创，也就是可以很好的整合各方内容，或者添加一些新鲜的内容，比如意见、评论，让用户拥有更丰富的内容以及更全面的内容。

　　3、高价值原创内容页：百度将原创定义为文章经过一定成本和大量经验形成的。不要再问我们伪原创是不是原创。

　　4.重要的个人页面：这里只是一个例子。科比在新浪微博上开设了账号，需要不定期更新。但对于百度来说，它仍然是一个极其重要的页面。

　　哪些网页不能建索引库

　　上述优质网页均收录在索引库中。其实网上的网站大部分根本就不是百度收录。不是百度没找到，而是建库前的筛选链接被过滤掉了。那么一开始就过滤掉了什么样的网页：

　　1、重复内容的网页：对于已经在网上的内容，百度当然不需要收录。

　　2、正文内容较短的网页

　　1）部分内容使用了百度蜘蛛无法解析的技术，如JS、AJAX等，虽然用户访问时可以看到丰富的内容，但还是会被搜索引擎抛弃

　　2）加载过慢的网页也可能被视为空的短页。请注意，广告加载时间计入网页的整体加载时间。

　　3）很多主题不显眼的网页，即使被爬回来也会被丢弃在这个链接里。

　　3、一些作弊页面

　　二、Search Sort：搜索引擎索引系统概述

　　众所周知，搜索引擎的主要工作流程包括：抓取、存储、页面分析、索引、检索等主要流程。上一章我们主要介绍了爬取和存储链接中的一些内容。本章简要介绍索引系统。

　　在一个以亿为单位的网络图书馆中搜索某个特定的关键词，就像大海捞针。有可能在一定时间内完成搜索，但用户不能等待。从用户体验的角度来说，一定要在毫秒级别给用户满意的结果，否则只会流失用户。我们如何才能满足这一要求？

　　如果我们知道用户搜索到的关键词的哪些页面（查询被剪切后）出现在哪些页面，那么用户搜索过程可以想象成一个收录查询词后不同部分的页面的集合cut 过程，检索成为页面名称之间的比较和交叉。这样，以毫秒为单位的亿次检索成为可能。这就是所谓的倒排索引和交叉检索的过程。创建倒排索引的基本过程如下：

　　1、页面分析的过程其实就是对原页面的不同部分进行识别和标记，比如标题、关键词、内容、链接、锚点、评论、其他不重要的区域等；

　　2、分词的过程其实包括分词、分词、同义词转换、同义词替换等，以一个页面标题的分词为例，得到的数据会是这样的数据：term text, termid、词性、词性等；

　　3、之前的准备工作完成后，下一步就是创建倒排索引，形成{termàdoc}。下图展示了索引系统中的倒排索引过程。

　　倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来，我们要介绍索引系统建立倒排索引的重要过程——存储和写入。

　　倒排索引存储和写入的重要过程

　　在倒排索引建立的最后，索引系统还需要有一个存储和写入的过程，并且为了提高效率，这个过程还需要将所有的词条和偏移量保存在文件头中，并且压缩数据。我不会在这里提到太多涉及的技术性。下面简单介绍一下索引后的检索系统。

　　检索系统主要由五部分组成，如下图所示：

　　(1）Query字符串分词就是对用户的查询词进行切分，为后续查询做准备。以“地铁10号线故障”为例，可能的切分如下（同义词问题暂时略过） :

　　10 0x123abc

　　没有。 0x13445d

　　行 0x234d

　　地铁 0x145cf

　　失败 0x354df

　　(2）找出收录每个term的文档集合，即找到候选集合，如下：

　　0x123abc 1 2 3 4 7 9 .....

　　0x13445d 2 5 8 9 10 11……

　　……

　　(3）求交，上面提到的交集，文档2和文档9可能就是我们需要找的，整个交互过程其实关系到整个系统的性能，包括缓存的使用以及其他进行性能优化的手段；

　　（4）各种过滤，示例可能包括过滤掉死链接、重复数据、*敏*感*词*、垃圾结果和您所知道的；

　　(5）Final排名，将最符合用户需求的结果排在第一位，可能收录有用的信息如：网站的整体评价、网页质量、内容质量、资源质量、匹配度、以及分散程度、及时性等

　　影响搜索结果排名的因素

　　上面的内容看起来有点深奥，因为涉及到很多技术细节，这里只能说一下。然后说一下大家最感兴趣的排序问题，用户输入关键词进行搜索。百度搜索引擎在排序链接上要做两件事。一是从索引库中提取相关网页，二是根据不同维度的得分对提取的网页进行整合。种类。 “不同维度”包括：

　　1、 Relevance：网页内容与用户搜索需求的匹配程度，比如用户对网页中收录的关键词的点击次数，以及这些关键词出现的位置；外部网页指向页面上使用的锚文本等

　　2、Authority：用户喜欢网站提供的内容，具有一定的权限。相应地，百度搜索引擎也更加相信优质权威网站提供的内容。

　　3、Timeliness：及时性结果是指加载了新鲜内容的新网页。目前，时间敏感的结果在搜索引擎中变得越来越重要。

　　4、importance：网页内容与用户检查需求相匹配的重要程度或受欢迎程度

　　5、Richness：Richness 看似简单，但却是一个涵盖面非常广的命题。可以理解为网页内容丰富，完全可以满足用户的需求；既可以满足用户的单一需求，又可以满足用户的扩展需求。

　　6、Popularity：指网页是否流行。

　　以上是百度搜索引擎在决定搜索结果排名时考虑的六大原则。那么六项原则的重点是什么？在实际应用中，哪个原理占的比例最大？事实上，这里没有明确的答案。在百度搜索引擎的早期，这些门槛确实是比较固定的。例如，“相关性”可以占整体排名的 70%。但是，随着互联网的不断发展，检索技术的进步，网页数量的爆炸式增长，相关性不再是问题。因此，百度搜索引擎引入了机器学习机制，让程序自动生成计算公式，促进更合理的排名策略。

　　低质量网页的狙击策略：石榴算法

　　我们理解网站生命发展需要资金支持，我们从不反对网站添加各种合法广告。不要问我们“我们网站加了XX联盟的广告会被处罚”之类的问题。有的网站在百度上排名不错，但在页面上投放了大量损害用户体验的广告，严重影响了百度搜索引擎的用户体验。为此，百度质量团队于2013年5月17日发布公告：针对低质量网页推出石榴算法，旨在打击含有大量不良广告，阻碍用户正常浏览的页面，尤其是带有大量低质量广告和混乱页面的弹出窗口。主要内容收录垃圾广告的页面。

　　如下网页截图所示，用户需要很长时间才能找到真正的下载地址，百度无法接受。

　　百度的质量团队希望站长能从用户的角度出发，走向长远的发展考虑，在不影响用户体验的前提下合理投放广告，赢得用户的长期青睐是网站的基础发展和成长。 .

　　三、外部投票：外链的作用（2014版）

　　曾经，“内容为王，超级链为王”的说法已经流行多年。通过超链接的分数计算反映了网页的相关性和重要性。它确实是搜索引擎用来评估网页的重要参考因素之一。会直接参与搜索结果排序的计算。然而，随着越来越多的SEO人员了解这项技术，Hyperlink作为一票的意义逐渐失去了意义。无论是谷歌还是百度，对超链接数据的依赖越来越低。

　　那么超链接现在扮演什么角色？

　　1、吸引蜘蛛爬行：虽然百度在挖掘新的好网站、开放多个数据提交门户、避开社交发现渠道等方面做了很大的努力，但超链仍然是发现收录链接的最重要入口.

　　2、向搜索引擎传递相关信息：百度除了通过TITLE、页面关键词、H标签等判断网页内容外，还使用锚文本辅助判断。将图片作为点击入口的超链接，也可以通过alt属性和title标签向百度发送感受。

　　3、Raise 排名：百度搜索引擎虽然减少了对超链接的依赖，但对超链接的认可度从未降低，对优质链接、正常链接、垃圾链接和作弊链接制定了更严格的标准。对于作弊链接，除了对链接进行过滤和清理之外，对链接的受益站点也进行一定程度的处罚。因此，百度仍然欢迎高质量的链接。

　　4、内容分享，获得口碑：优质内容被广泛传播，网站可能不会因此获得多少流量，但如果内容足够，也可以建立自己的品牌效应。

　　*严格来说，这不是超链接。在百度眼中，网站的品牌远比超链接重要。

　　最前沿的买卖超链接-绿萝算法1.0&2.0

　　百度质量团队于2013年2月19日发布公告，推出绿萝算法，再次强调买卖链接行为：一方面，买卖链接行为影响用户体验，干扰搜索引擎算法；另一方面，它让投机者受益，超级链中介是有利可图的，而真正勤于做好工作的站长在这种恶劣的互联网超链接环境中无法获得应有的回报。因此，以下三类网站将在清除买卖链接行为的外链计算的基础上受到不同程度的影响：

　　1、超链中介：超链应该是互联网上比较优质的推荐。是普通用户和网站之间对页面内容和网站价值的肯定，但现在各种超链作弊行为让真正的肯定成为了一些人谋取利益的垫脚石。用户无法根据链接推荐找到自己需要的优质资源，严重干扰了搜索引擎对网站的评价。超链中介是这个畸形的超链市场形成的邪恶之花。我们有义务维护Hyperchain的纯洁性以保护用户的利益，同时我们也有责任引导站长朋友停止花费不必要的费用，因此Hyperchain中介将在我们的目标范围内。

　　2、我看到的是网站的真实价值。不过部分网站内容基本采集来自网络直播，靠卖超链接位置；一些机构网站可能会被链接中介租用出售链接位置，使得超链接市场泡沫越来越大。本次调整也会对此类网站产生影响。

　　3、买LINK的网站：百度一直在保护和培育优质网站。这是从用户需求和创业站长角度来看的必然结果。不过，也有部分站长并没有把精力花在提升网站的质量上，而是选择使用花招，用超链接换钱，欺骗搜索引擎，欺骗用户。对于没有太多资源和钱花在这些费用上的创业站长来说，也是一种无形的伤害。如果不加以遏制，劣币驱逐良币，势必导致互联网环境更糟。此类网站本身的调整也会受到影响。

　　以上是百度质量团队第一次推出绿萝算法时的具体情况，后来称为绿萝算法1.0。五个月后，百度质量团队再次上线了路罗算法2.0，对明显的推广软文进行了更大更严格的处理。

　　处罚的重点是发布软文新闻网站，包括软文贸易平台和软文收入网站。处罚包括：

　　1、将直接被软文交易平台屏蔽；

　　2、会根据不同程度处理软文发布站。比如一条新闻网站，有发布软文但情节不严重的现象，网站在搜索系统中会降级；如*敏*感*词*域发布大量软文，则子域将被直接屏蔽。并清除百度新闻源；更重要的是，创建大量子域发布软文，这样整个主域都会被屏蔽。

　　3、对于软文beneficiary 站，网站的外链中存在少量软文外链，则外链会被过滤掉权重计算系统，受益人本站将在观察一段时间后，视情况做进一步处理；网站外部链接中存在大量软文外链接，此时受益站点将被降级或直接屏蔽。

　　四、结果展示：结构化数据——帮助网站获得更多点击

　　网页经历了爬取、建库、参与排序计算，最终呈现在搜索引擎用户面前。目前百度搜索左侧显示的结果形式有多种，如：风潮、品牌专区、自然结果等，自然结果如何获得更多点击量，是站长考虑的重要部分。

　　目前，自然结果分为两类，如下图所示。一是结构化呈现，形式多样。目前覆盖了80%的搜索需求，也就是80%的关键词都会有这种复杂的展示风格；第二种是摘要展示，最原创的展示方式，只有一个标题，两行摘要，部分链接。