百度搜索引擎优化原理(UA即user-agent原则及调整方法根据上述网站设置)
优采云 发布时间: 2022-02-15 14:05百度搜索引擎优化原理(UA即user-agent原则及调整方法根据上述网站设置)
UA属性:UA即user-agent,是http协议中的一个属性,代表终端的身份,向服务器表明我在做什么,然后服务器可以根据不同的身份做出不同的反馈结果。
机器人协议:robots.txt 是搜索引擎访问网站时首先访问的文件,用于确定哪些允许爬取,哪些禁止爬取。robots.txt 必须放在网站 根目录下,文件名必须小写。robots.txt的详细写法请参考。百度严格执行机器人协议。此外,它还支持在网页内容中添加名为 robots 的元标记,以及 index、follow 和 nofollow 等指令。
百度蜘蛛抓取频率原理及调整方法
百度蜘蛛根据上述网站设定的协议爬取网站页面,但不可能对所有网站一视同仁。它会综合考虑网站的实际情况来确定一个抓取配额,每天定量抓取网站内容,也就是我们常说的抓取频率。那么百度搜索引擎是通过哪些指标来判断一个网站的爬取频率呢?主要有四个指标:
1、网站更新频率:更新越频繁,更新越慢,直接影响百度蜘蛛的访问频率
2、网站更新质量:提升的更新频率正好吸引了百度蜘蛛的注意。百度蜘蛛对质量有严格的要求。如果 网站 每天更新的大量内容被百度蜘蛛质量页面判断为低,仍然没有意义。
3. 连通性:网站 安全稳定,保持百度蜘蛛畅通。一直关着百度蜘蛛不是好事
4、站点评价:百度搜索引擎会对每个站点都有一个评价,这个评价会根据站点情况不断变化。里面有很机密的资料。站点评级从不单独使用,并与其他因素和阈值一起影响 网站 的爬取和排名。
爬取频率间接决定了网站有多少页面可能被数据库收录。这么重要的值,如果不符合站长的期望,应该如何调整呢?百度站长平台提供了爬频工具(),并完成了多次升级。除了提供爬取统计,该工具还提供了“频率调整”功能。站长要求百度蜘蛛根据实际情况增加或减少对百度站长平台的访问量。调整。
百度蜘蛛爬取异常的原因
有一些网页内容优质,用户可以正常访问,但Baiduspider无法正常访问和爬取,导致搜索结果覆盖不足,对百度搜索引擎和网站来说都是一种损失。百度称这种情况为“抢”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验缺陷,降低对网站的评价,在爬取、索引和排序方面都会受到一定程度的负面影响,最终会影响到网站从百度获得的流量。
以下是爬取异常的一些常见原因:
1.服务器连接异常
服务器连接异常有两种情况:一种是网站不稳定,百度蜘蛛在尝试连接你的网站服务器时暂时无法连接;另一个是百度蜘蛛一直无法连接到你网站的服务器。服务器。
服务器连接异常的原因通常是你的网站服务器太大,过载。您的 网站 也可能运行不正常。请检查网站的web服务器(如apache、iis)是否安装并运行正常,并使用浏览器检查主页是否可以正常访问。您的 网站 和主机也可能阻止了百度蜘蛛的访问,您需要检查您的 网站 和主机的防火墙。
2、网络运营商异常:网络运营商分为电信和联通两类。百度蜘蛛无法通过中国电信或中国网通访问您的网站。如果出现这种情况,需要联系网络服务运营商,或者购买双线服务空间或者购买cdn服务。
3、DNS异常:当Baiduspider无法解析您的网站 IP时,会出现DNS异常。可能你的网站IP地址错误,或者你的域名服务商屏蔽了百度蜘蛛。请使用 WHOIS 或主机检查您的 网站IP 地址是否正确且可解析。如果不正确或无法解决,请联系域名注册商更新您的 IP 地址。
4、IP封禁:IP封禁是:限制网络的出口IP地址,禁止该IP段内的用户访问内容,这里特意封禁BaiduspiderIP。仅当您的 网站 不希望百度蜘蛛访问时,才需要此设置。如果您想让百度蜘蛛访问您的网站,请在相关设置中检查百度蜘蛛IP是否添加错误。也有可能是你网站所在的空间服务商封杀了百度IP。在这种情况下,您需要联系服务提供商更改设置。
5、UA禁止:UA为User-Agent,服务器通过UA识别访问者。当网站返回异常页面(如403、500)或跳转到其他页面进行指定UA的访问时,属于UA禁令。当你的网站不想要百度蜘蛛时这个设置只有在访问的时候才需要,如果你想让Baiduspider访问你的网站,请检查useragent相关设置中是否有Baiduspider UA,并及时修改。
6、死链接:已经失效且无法为用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接:
协议死链接:页面的TCP协议状态/HTTP协议状态明确表示的死链接,如404、403、503状态等。
内容死链接:服务器返回正常状态,但内容已更改为不存在、已删除或需要权限等与原创内容无关的信息页面。
对于死链接,我们建议网站使用协议死链接,通过百度站长平台-死链接工具提交给百度,这样百度可以更快的找到死链接,减少死链接对用户和搜索引擎的负面影响。
7.异常跳转:将网络请求重定向到另一个位置是跳转。异常跳转指以下几种情况:
1)当前页面为无效页面(删除内容、死链接等),直接跳转到上一个目录或首页,百度建议站长删除无效页面的入口超链接
2)跳转到错误或无效页面
注意:长期重定向到其他域名,如网站改域名,百度推荐使用301重定向协议进行设置。
8. 其他例外:
1)百度referrer异常:网页返回的行为与来自百度的referrer的正常内容不同。
2)百度UA异常:网页返回百度UA的行为与页面原创内容不同。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,导致用户通过搜索结果进入页面后跳转。
4)压力过大导致的意外封禁:百度会根据网站规模、流量等信息自动设置合理的抓取压力。但在异常情况下,如压力控制异常时,服务器会根据自身负载进行保护性的偶尔封禁。在这种情况下,请在返回码中返回 503(表示“服务不可用”),这样百度蜘蛛会在一段时间后再次尝试抓取链接。如果 网站 是空闲的,它将被成功爬取。
判断新链接的重要性
好了,上面我们讲了影响百度蜘蛛正常爬取的原因,下面说一下百度蜘蛛的一些判断原则。建库前,Baiduspide会对页面进行初步的内容分析和链接分析,通过内容分析判断页面是否需要建索引库,通过链接分析发现更多页面,然后爬取更多页面——分析——是否建立一个图书馆并发现新链接的过程。理论上,百度蜘蛛会抓取新页面上所有“看到”的链接,那么面对众多的新链接,百度蜘蛛如何判断哪个更重要呢?两个方面:
一、对用户的价值:
1.独特的内容,百度搜索引擎喜欢独特的内容
2. 主体突出,不要出现网页主体内容不突出被搜索引擎误判为空短页而未被抓取
3、内容丰富
4.广告合适
二、链接的重要性:
1.目录级别——浅层优先
2. 网站链接的受欢迎程度
百度优先建设重要库的原则
百度蜘蛛抓取的页数不是最重要的,重要的是建了多少页到索引库,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。高质量的网页将分配到重要的索引库,普通网页将留在普通库,较差的网页将分配到低级库作为补充资料。目前60%的检索需求只需要调用重要的索引库就可以满足,这就解释了为什么有些网站的收录的高流量并不理想。
那么,哪些页面可以进入优质索引库呢?其实,总的原则是一个:对用户有价值。包括但不仅限于:
1.及时有价值的页面:在这里,及时性和价值并列,两者都缺一不可。有些网站为了生成时间敏感的内容页面做了很多采集的工作,导致一堆毫无价值的页面,百度不想看到。
2. 内容优质的专题页:专题页的内容不一定是完全的原创,也就是可以很好的融合各方的内容,或者添加一些新鲜的内容,比如浏览量和评论,给用户更丰富、更全面的内容。
3、高价值的原创内容页面:百度将原创定义为花费一定成本、积累大量经验后形成的文章。永远不要再问我们是否 伪原创 是原创。
4.重要的个人页面:这里只是一个例子,科比在新浪微博上开了一个账号,他需要不经常更新,但对于百度来说,它仍然是一个非常重要的页面。
哪些页面不能被索引
上面提到的优质网页都进入了索引库,所以其实网上的大部分网站都没有被百度收录列出来。不是百度没找到,而是建库前的筛选过程中被过滤掉了。那么在第一个链接中过滤掉了什么样的网页:
1、内容重复的网页:百度不需要收录互联网上已有的内容。
2. 主要内容为空、短的网页
1)有些内容使用了百度蜘蛛无法解析的技术,比如JS、AJAX等,虽然用户可以看到丰富的内容,但还是会被搜索引擎抛弃
2)加载太慢的网页也可能被视为空的短页。请注意,广告加载时间计入网页的总加载时间。
3)很多主体不太突出的网页,即使被爬回来,也会在这个链接中被丢弃。
3.一些作弊页面
第 2 节-
搜索引擎索引系统概述
众所周知,搜索引擎的主要工作流程包括爬取、存储、页面分析、索引、检索等几个主要流程。上一章我们主要介绍了一些爬取和存储链接的内容。本章简要介绍了索引系统。
在以十亿为单位的网页库中搜索特定的 关键词 就像大海捞针一样。有可能在一定时间内完成搜索,但用户不能等待。从用户体验的角度来看,我们必须在毫秒级别给出。用户对结果满意,否则用户只能流失。怎样才能满足这个要求?
如果可以知道用户正在寻找的关键词(查询被分割后)中出现了哪些页面,那么用户检索的过程可以想象为收录不同部分的页面集合相交的过程的查询。, 检索成为页面名称之间的比较和交集。这样,以毫秒为单位的数十亿单位的检索成为可能。这就是所谓的倒排索引和交集检索过程。构建倒排索引的基本流程如下:
1、页面分析的过程其实就是对原创页面的不同部分进行识别和标记,例如:标题、关键词、内容、链接、锚点、评论、其他非重要区域等;
2、分词的过程实际上包括分词、分词、同义词转换、同义词替换等。以一个页面的标题切分为例,得到的数据会如:词条文本、词条、词性、词性等;
3、前面的准备工作完成后,下一步就是建立倒排索引,形成{termàdoc}。下图是索引系统中的倒排索引流程。
倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来,我们将介绍在索引系统中建立倒排索引的重要过程——入库和写入。
倒排索引的重要过程——存储和写入
索引系统在倒排索引建立的最后还需要一个入库和写库的过程。为了提高效率,这个过程还需要把所有的term和offset都保存在文件头中,并对数据进行压缩,涉及到技术性太强这里就不说了。这里简单介绍一下索引后的检索系统。
检索系统主要包括五个部分,如下图所示:
(1)查询字符串切分切分就是对用户的查询词进行切分,为后续查询做准备。以“地铁10号线故障”为例,可能的切分如下(同义词问题暂时略过):
10 0x123abc
编号 0x13445d
行 0x234d
地铁 0x145cf
故障 0x354df
(2)找出收录每个词条的文档集,即找到候选集,如下:
0x123abc 1 2 3 4 7 9…..
0x13445d 2 5 8 9 10 11…
...
...
(3)对于交集,上面提到的交集,文档2和文档9可能是我们需要找到的。整个交集过程其实关系到整个系统的性能,其中就包括缓存的使用和其他性能优化手段;
(4)各种过滤,例子可能包括过滤掉死链接、重复数据、*敏*感*词*、垃圾结果和你知道的;
(5)最终排序,首先对最符合用户需求的结果进行排序,可能收录有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配度、分散度、及时性等。
影响搜索结果排名的因素
上面的内容好像有点深奥,因为涉及到很多技术细节,这里只能说一下。那么再来说说大家最感兴趣的排序问题。用户输入关键词进行检索。百度搜索引擎在排序过程中要做两件事。一是从索引数据库中提取相关网页,二是根据不同维度对提取的网页进行评分。综合排序。“不同维度”包括:
1、相关性:网页内容与用户检索需求匹配的程度,比如网页中收录的用户勾选的关键词的数量,以及这些关键词出现的位置; 外部网页用来指向页面的锚文本 等
2.权威性:用户喜欢网站提供的内容,具有一定的权威性。相应地,百度搜索引擎也相信优质权威网站提供的内容。
3. 时效性:时效性结果是指新的网页带有新鲜的内容。如今,时间敏感的结果在搜索引擎中变得越来越重要。
4.重要性:网页内容的重要性或受欢迎程度与用户的检查需求相匹配
5. 丰富性:丰富性看似简单,但却是一个非常广泛的命题。可以理解为网页内容丰富,可以充分满足用户的需求;既能满足用户的单一需求,又能满足用户的扩展需求。
6、流行度:指页面是否流行。
以上就是百度搜索引擎在确定搜索结果排名时考虑的六大原则。六大原则的重点是什么?哪个原理在实际应用中所占的比例最大?其实这里并没有明确的答案。在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”在整体排名中的权重可以占到 70%。然而,随着互联网的不断发展,检索技术的进步,以及网页数量的爆炸式增长,相关性已不再是问题。因此,百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,推动排序策略更加合理。
低质量网页狙击策略——石榴算法
我们理解网站需要资金支持才能生存和发展,我们从不反对网站添加各种合法广告。不要再问我们,“我们会不会网站加XX联盟广告,会受到惩罚?” 此类问题。一些网站虽然在百度排名不错,但在页面上投放了大量不利于用户体验的广告,严重影响了百度搜索引擎的用户体验。为此,百度质量团队于2013年5月17日发布公告:针对低质量网页启动石榴算法,旨在打击含有大量不良广告、妨碍用户正常浏览的页面,特别是弹出大量低质量广告和混乱页面。
如下网页截图所示,用户需要很长时间才能找到真正的下载地址,这是百度无法接受的。
百度质量团队希望站长能从用户的角度出发,考虑长远发展,在不影响用户体验的情况下合理投放广告,赢得用户长期青睐是网站发展的基础和成长。
第 3 节-
外部链接的作用(2014年版)
曾经,“内容为王,超链接为王”的说法流传了多年。通过计算超链接的得分来反映网页的相关性和重要性。它确实是搜索引擎评估网页的重要参考因素之一。搜索结果排序计算。然而,随着越来越多的SEO人员了解这项技术,超链接也逐渐失去了投票的意义。无论是谷歌还是百度,对超链接数据的依赖度越来越低。那么,目前超链的作用是什么?
1. 引蜘蛛爬:虽然百度在发现新的好网站方面下足了功夫,开放了多个数据提交入口,避开了社交发现渠道,但超链接仍然在发现收录链接。最重要的入口。
2、将相关信息传递给搜索引擎:百度除了通过TITLE、页面关键词、H标签等来判断网页内容外,还会使用锚文本进行判断。使用图片作为点击入口的超链接,也可以通过alt属性和title标签向百度传达你的感受。
3、提升排名:百度搜索引擎虽然减少了对超链接的依赖,但对超链接的认可度从未下降,对优质链接、正常链接、垃圾链接和作弊链接制定了更严格的标准。对于作弊链接,除了对链接进行过滤和清理外,对链接的受益站点也进行了一定的处罚。相应地,百度依然欢迎优质链接。
4、内容分享获得口碑:优质内容广为传播,网站可能不会获得很多流量,但如果内容做得够好,也能树立自己的品牌效应.
*严格来说,这不属于超链接的作用。在百度眼里,网站的品牌远比超链接重要。
切断买卖的超链——路罗算法1.0&2.0
2013年2月19日,百度质量团队发布公告,上线lulu算法,再次强调买卖链接的行为:一方面,买卖链接的行为影响用户体验,干扰搜索引擎算法;得利,真正用心做好站内工作的站长们,在这个严酷的互联网超链环境下,是得不到应有的回报的。因此,以下三类网站在清除买卖环节外链计算的基础上会受到不同程度的影响:
1、超链中介:超链应该是互联网上比较优质的推荐,是普通用户和网站之间对页面内容和网站价值的肯定,但现在各种超链作弊让真实的肯定成为部分人谋取利益的敲门砖,用户无法根据链接推荐找到自己需要的优质资源,严重干扰搜索引擎对网站的评价. 超链中介是在这个畸形的超链市场中形成的邪恶之花。我们有义务维护超链的纯粹性,保护用户的利益。我们也有责任引导站长朋友们停止花费不必要的开支。所以,
2、卖链接网站:一个网站赚钱的方式很多,用优质的原创内容吸引老用户,引入优质的广告资源,甚至举办线下活动,这些盈利方式都是我们乐于看到的,也是一个网站的真正价值。但是,有些网站的内容基本上是采集来自网络,靠卖超链位置来活的;一些机构网站或被链接中介租用出售链接位置,使得超链市场的泡沫越来越大。这种调整也会影响这些网站。
3、购买链接网站:百度一直保护和支持优质网站,这是从用户需求和创业站长的角度来看的必然结果。然而,一些站长并没有把精力花在提高网站的质量上,而是选择了耍花招,用金钱换超链接,欺骗搜索引擎,然后欺骗用户。对于没有太多资源和金钱来支付此类费用的创业站长来说,这也是一种无形的伤害。如果不加以遏制,劣币将驱逐良币,势必导致更糟糕的互联网环境。此类网站本身也将受到此次调整的影响。
以上是百度质量团队首次推出鲁洛算法时的具体情况,后来被称为鲁洛算法1.0。时隔5个月,百度质量团队再次推出鲁洛算法2.0,对明显提升软文进行了更宽更严的处理。
处罚对象为发布软文的新闻网站,包括软文交易平台和软文收益网站。处罚包括:
1、对于软文的交易平台,将直接封禁;
2、对于软文 发布站,将有不同的处理方式。比如一条新闻网站,有发布软文的现象但情况不严重,搜索系统中的网站会被降级;如果大量使用子域发布软文,则直接屏蔽子域,清空百度动态;即使为发布软文创建了大量子域,整个主域也会被屏蔽。
3、对于软文的收款站,如果一个网站的外链中有少量的软文外链,则将外链过滤掉,从重量计算系统中删除。对受益地点进行观察一段时间,视情况进一步处理;如果一个网站反向链接中有大量软文反向链接,那么此时受益站点将被降级或直接屏蔽。
第 4 节-
结构化数据 - 帮助您的网站获得更多点击
网页经过爬取和建库,参与排序计算,最终展现在搜索引擎用户面前。目前百度搜索左侧的结果展示形式有很多种,比如:凤巢、品牌专区、自然结果等,如何让一个自然结果获得更多点击是站长考虑的重要部分。
目前自然结果分为两类,如下图所示。第一种,即结构化呈现,形式多样。目前覆盖了80%的搜索需求,即80%的关键词都会出现这种复杂的展示风格;第二种是摘要展示,最原创的展示方式,只有一个标题,两行摘要,部分链接。
显然,结构化呈现可以清晰地向用户传达信息,直接击中用户需求的痛点,自然获得更好的点击量。目前结构化展示有几种风格:
1. 一般问答:提取答案方便搜索用户参考,部分结构化数据也提取问题
2. 下载:
3、时间戳:对于时效性强的信息,提取时间吸引用户点击,并有回复条目,可以显示链接的有效性和受欢迎程度
4.在线文档:出现文档格式*敏*感*词*
5、原创标志:原创标志的使用最为严格。只有通过人工审核的网站才能有 原创 标记。爬取和排序有一定的优待,所以审稿很重要。严格,严格的质量控制。
6、带图片:扩大区域方便用户了解网页内容并吸引点击
那么站长如何才能得到显示的结果:
1.参与原创Spark计划:百度站长平台提供申请入口,需人工审核后提交
2.结构化数据提交工具:/wiki/197
3.结构化数据标注工具:/itemannotator/index
4、带搜索结果的图片:具体要求在文章的主要位置;图片与内容相关;图片上没有文字;图片比例接近121*91