百度搜索引擎优化原理(UA即user-agent原则及调整方法根据上述网站设置)
优采云 发布时间: 2022-02-15 18:01百度搜索引擎优化原理(UA即user-agent原则及调整方法根据上述网站设置)
UA属性:UA即user-agent,是http协议中的一个属性。它代表终端的身份,向服务器指示我在做什么,服务器可以根据不同的身份做出不同的决定。反馈结果。
robots 协议:robots.txt 是搜索引擎在访问 网站 时首先访问的文件,以确定哪些允许爬取,哪些不允许爬取。 robots.txt 必须放在网站 根目录下,文件名必须小写。 robots.txt的详细写法请参考。百度严格执行机器人协议。此外,它还支持在网页内容中添加名为robots、index、follow、nofollow等指令的meta标签。
白蛛爬行频率原理及调整方法
Baiduspider根据上述网站设定的协议爬取网站页面,但不可能对所有网站一视同仁。它将综合考虑网站的实际情况确定抓取配额,每天定量抓取网站内容。也就是我们常说的爬行频率。那么百度搜索引擎是通过哪些指标来判断一个网站的爬取频率呢?主要有四个指标:
1、网站更新频率:更新越频繁,更新越慢,直接影响百度蜘蛛的访问频率
2、网站更新质量:更新频率的提升正好吸引了百度蜘蛛的注意。百度蜘蛛对质量有严格的要求。如果每天更新的大量内容被百度蜘蛛发布的话,判断为低质量页面仍然没有意义。
3、连通性:网站应该安全稳定,保持百度蜘蛛畅通,暂时关闭百度蜘蛛也不是什么好事
4、站点评价:百度搜索引擎对每个站点都会有一个评价,这个评价会根据站点情况而变化,是百度搜索引擎对站点的一个基本评分(绝不是上面提到的百度权重)由外界),是百度内部非常机密的数据。网站评分从不单独使用,并与其他因素和阈值一起影响网站的爬取和排名。
爬取的频率间接决定了网站有多少页面可能被数据库收录。如果这么重要的数值不符合站长的期望,应该如何调整呢?百度站长平台提供了爬频工具(),并完成了多次升级。除了提供爬取统计,该工具还提供了“频率调整”功能。站长要求百度蜘蛛根据实际情况增加或减少对百度站长平台的访问量。调整。
百度蜘蛛爬取异常的原因
有一些网页内容优质,用户可以正常访问,但Baiduspider无法正常访问和爬取,导致搜索结果覆盖不足,对百度搜索引擎和网站来说都是一种损失。百度将这种情况视为损失。这被称为“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验缺陷,在抓取方面降低网站的评价、索引和排序都会受到一定程度的负面影响,最终会影响到网站从百度获得的流量。
下面向站长介绍一些抓取异常的常见原因:
1、服务器连接异常
服务器连接异常有两种情况:一种是网站不稳定,百度蜘蛛在尝试连接你的网站服务器时暂时无法连接;另一个是百度蜘蛛一直无法连接到你网站的服务器。
服务器连接异常的原因通常是你的网站服务器太大,过载。您的 网站 也可能运行不正常。请检查网站的web服务器(如apache、iis)是否安装并运行正常,并使用浏览器检查主页是否可以正常访问。您的 网站 和主机也可能阻止了百度蜘蛛的访问,您需要检查您的 网站 和主机的防火墙。
2。网络运营商异常:网络运营商分为电信和联通两种。百度蜘蛛无法通过中国电信或中国网通访问您的网站。如果出现这种情况,需要联系网络服务运营商,或者购买双线服务空间或者购买cdn服务。
3、DNS异常:当Baiduspider无法解析你的网站 IP时,会出现DNS异常。可能你的网站IP地址错误,或者你的域名服务商屏蔽了百度蜘蛛。请使用 WHOIS 或主机检查您的 网站IP 地址是否正确且可解析。如果不正确或无法解析,请联系域名注册商更新您的IP地址。
4、IP封禁:IP封禁是:限制网络的出口IP地址,禁止该IP段内的用户访问内容,这里特指封禁BaiduspiderIP。仅当您的 网站 不希望百度蜘蛛访问时,才需要此设置。如果您想让百度蜘蛛访问您的网站,请检查相关设置中是否错误添加了百度蜘蛛IP。也有可能是你网站所在的空间服务商封杀了百度IP。在这种情况下,您需要联系服务提供商更改设置。
5、UA禁止:UA是User-Agent,服务器通过UA识别访问者的身份。当网站返回异常页面(如403、500)或跳转到其他页面进行指定UA的访问时,属于UA禁令。当你的网站不想要百度蜘蛛时这个设置只有在访问时才需要,如果你想让Baiduspider访问你的网站,请检查useragent相关设置中是否有Baiduspider UA,并及时修改。
6、死链接:无效且无法向用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接两种形式:
协议死链接:通过页面的TCP协议状态/HTTP协议状态明确表示的死链接,如404、403、503状态等
内容死链接:服务器返回正常状态,但内容已更改为与原创内容无关的不存在、已删除或需要权限等信息页面。
对于死链接,我们建议网站使用协议死链接,通过百度站长平台-死链接工具提交给百度,这样百度可以更快的找到死链接,减少死链接对用户和搜索的负面影响引擎。 .
7、异常跳转:将网络请求重定向到另一个位置是跳转。异常跳转指以下几种情况:
1)当前页面为无效页面(删除内容、死链接等),直接跳转到上一个目录或首页,百度建议站长删除无效页面的入口超链接
p>
2)跳转到错误或无效页面
注意:对于长期重定向到其他域名,如网站替换域名,百度建议使用301重定向协议进行设置。
8、其他例外:
1)百度引荐来源网址异常:网页返回的行为与来自百度引荐来源网址的正常内容不同。
2)百度UA异常:网页返回百度UA的行为与页面原创内容不同。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,导致用户通过搜索结果进入页面后跳转。
4)压力过大导致的意外封禁:百度会根据网站规模、流量等信息自动设置合理的抓取压力。但在异常情况下,如压力控制异常时,服务器会根据自身负载进行保护性的偶尔封禁。在这种情况下,请在返回码中返回 503(表示“服务不可用”),这样百度蜘蛛会在一段时间后再次尝试抓取链接。如果 网站 空闲,则爬取成功。
判断新链接的重要性
好了,上面我们讲了影响百度蜘蛛正常爬取的原因。下面说说百度蜘蛛的一些判断原理。建库前,Baiduspide会对页面进行初步的内容分析和链接分析,通过内容分析判断页面是否需要建索引库,通过链接分析发现更多页面,然后爬取更多页面——分析——是否建立一个图书馆并发现新链接的过程。理论上,百度蜘蛛会抓取新页面上所有“看到”的链接,那么面对众多的新链接,百度蜘蛛如何判断哪个更重要呢?两个方面:
一、对用户的价值:
1、独特的内容,百度搜索引擎喜欢独特的内容
2、主体突出,不要出现网页主体内容不突出而被搜索引擎误判为未被抓取的空短页
3、内容丰富
4、广告合适
二、链接的重要性:
1、目录级——浅层优先
2、链接在网站上的流行度
百度优先建设重要库的原则
百度蜘蛛抓取多少页并不是最重要的。重要的是索引库中建了多少页,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。高质量的网页将分配到重要的索引库,普通网页将留在普通库,较差的网页将分配到低级库作为补充资料。目前60%的检索需求只需要调用重要的索引库就可以满足,这就解释了为什么有些网站的收录的高流量并不理想。
那么,哪些页面可以进入优质索引库呢?其实,总的原则是一个:对用户有价值。包括但不限于:
1、时效性和有价值的页面:在这里,时效性和价值并列,两者缺一不可。有些网站为了生成时间敏感的内容页面做了很多采集工作,导致一堆毫无价值的页面,百度不想看到。
2。优质内容的专页:专页的内容不一定是完整的原创,也就是可以很好的融合各方的内容,或者添加一些新鲜的内容,比如浏览量、评论等。为用户提供更全面的内容。
3。高价值的原创内容页面:百度将原创定义为花费一定成本,积累大量经验后形成的文章。永远不要再问我们伪原创是原创。
4、重要的个人页面:这里只是一个例子,科比在新浪微博上开了一个账号,需要他不经常更新,但对于百度来说,它仍然是一个极其重要的页面。
哪些页面不能被索引
上面提到的优质网页都进入了索引库,所以其实网上的大部分网站都没有被百度收录列出来。不是百度没找到,而是建库前的筛选过程中被过滤掉了。那么第一个链接就过滤掉了什么样的网页:
1。有重复内容的网页:百度不需要收录互联网上已有的内容。
2、主要内容空而短的网页
1)部分内容使用了百度蜘蛛无法解析的技术,如JS、AJAX等,虽然用户可以看到丰富的内容,但还是会被搜索引擎抛弃
2)加载太慢的网页也可能被视为空的短页。请注意,广告加载时间计入网页的总加载时间。
3)很多主体不太突出的网页即使被爬回来也会被丢弃在这个链接中。
3、部分作弊页面
第 2 节 - 检索排序
众所周知,搜索引擎的主要工作流程包括:抓取、存储、页面分析、索引、检索等主要流程。上一章我们主要介绍了一些爬取和存储链接的内容。本章简要介绍了索引系统。
在以十亿为单位的网络图书馆中查找某些特定项目关键词 就像大海捞针一样。有可能在一定时间内完成搜索,但用户等不起。从用户体验的角度来看,一定要做到毫秒级才能给用户满意的结果,否则用户只能流失。如何满足这个要求?
如果可以知道用户正在查找的关键词(查询被分割后)中出现了哪些页面,那么用户检索的处理过程可以想象为:一个页面集合,收录分词后查询的不同部分 求交集的过程,检索变成了页名之间的比较和交集。这样,以毫秒为单位的数十亿单位的检索成为可能。这就是所谓的倒排索引和交集检索过程。构建倒排索引的基本流程如下:
1、页面分析的过程其实就是对原创页面的不同部分进行识别和标记,例如:标题、关键词、内容、链接、锚点、评论、其他非重要区域等;
2、分词的过程其实包括分词、同义词转换、同义词替换等。以一个页面的标题分词为例,得到的数据会如:term text、termid、词性、词性等;
3。前面的准备工作完成后,下一步就是建立倒排索引,形成{termàdoc}。下图是索引系统中倒排索引的过程。
倒排索引是搜索引擎实现毫秒级检索的一个非常重要的部分。接下来要介绍索引系统建立倒排索引的重要过程——入库和写入。
倒排索引的重要过程——存储和写入
索引系统在倒排索引建立的最后还需要一个入库和写库的过程。为了提高效率,这个过程还需要在文件头中保存所有的term和offset,并压缩数据。这太技术性了,这里就不提了。这里简单介绍一下索引后的检索系统。
搜索系统执行过程
检索系统主要包括五个部分,如下图所示:
(1)查询字符串切分切分就是对用户的查询词进行切分,为后续查询做准备。以“地铁10号线故障”为例,可能的切分如下(同义词问题暂时跳过):
10 0x123abc
数字 0x13445d
第 0x234d 行
地铁 0x145cf
故障 0x354df
(2)找出收录每个词条的文档集,即找到候选集,如下:
0x123abc 1 2 3 4 7 9...
0x13445d 2 5 8 9 10 11...
……
……
(3)对于交集,上面提到的交集,document 2和document 9可能就是我们需要找到的,整个交集过程其实影响到整个系统的性能,其中包括使用缓存等手段进行性能优化;
(4)各种过滤器,示例可能包括过滤掉死链接、重复数据、*敏*感*词*内容、垃圾邮件结果以及您所知道的内容;
(5)最终排序,首先对最符合用户需求的结果进行排序,可能收录有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配度、分散性、时效性等。
影响搜索结果排名的因素
上面的内容好像有点深奥,因为涉及到很多技术细节,这里只能说一下。那么再来说说大家最感兴趣的排序问题。用户输入关键词进行检索。百度搜索引擎在排序过程中要做两件事。一是从索引数据库中提取相关网页,二是根据不同维度对提取的网页进行评分。综合排序。 “不同的维度”包括:
1、相关性:网页内容与用户检索需求的匹配程度,如网页中收录的用户勾选的关键词的数量,以及这些关键词所在的位置@> 出现;外部网页使用锚文本等指向页面。
2。权限:用户喜欢网站提供的内容,具有一定的权限。相应地,百度搜索引擎也信任优质权威网站提供的内容。
3。时效性:时效性结果是指带有新鲜内容的新网页。如今,对时间敏感的结果在搜索引擎中变得越来越重要。
4、重要性:网页内容的重要性或受欢迎程度与用户的检查需求匹配程度
5、丰度:丰度看似简单,但却是一个非常广泛的命题。可以理解为网页内容丰富,可以充分满足用户的需求;既能满足用户的单一需求,又能满足用户的扩展需求。
6、流行度:指页面是否流行。
以上是百度搜索引擎在确定搜索结果排名时考虑的六大原则。那么六项原则的重点是什么?哪个原理在实际应用中所占的比例最大?其实这里并没有明确的答案。在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”在整体排名中的权重可以占到 70%。然而,随着互联网的不断发展,检索技术的进步,以及网页数量的爆炸式增长,相关性已不再是问题。因此,百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,推动排序策略更加合理。
低质量网页狙击策略——石榴算法
我们理解网站的生存和发展需要资金支持,我们从不反对网站添加各种合法广告。不要再问我们“我们会网站添加XX联盟广告吗?有的网站虽然在百度排名不错,但在页面上投放了大量不利于用户体验的广告,严重影响了百度搜索引擎的用户体验。为此,百度质量团队于2013年5月17日发布公告:针对低质量网页推出石榴算法,旨在打击存在大量不良广告阻碍用户正常浏览的页面,尤其是当大量低质量网页优质广告弹出,页面混乱。垃圾页面的主要内容。
如下网页截图所示,用户需要很长时间才能找到真正的下载地址,这是百度无法接受的。
关键词1@>
百度质量团队希望站长能从用户的角度出发,考虑长远发展,在不影响用户体验的情况下合理投放广告,赢得用户的长期青睐。 网站发展和成长基础。
外部投票
外部链接的作用(2014版)
曾经,“内容为王,超链接为王”的说法流传多年。网页的相关性和重要性通过超链接计算分数来体现。它确实是搜索引擎评估网页的重要参考因素之一。它将直接参与搜索结果的排名计算。然而,随着越来越多的SEO人员了解这项技术,超链接也逐渐失去了投票的意义。无论是谷歌还是百度,对超链接数据的依赖度越来越低。那么,超链目前的作用是什么?
1、吸引蜘蛛爬行:虽然百度努力发现新的好网站,开放多个数据提交入口,避开社交发现渠道,但超链接仍然是发现收录链接最重要的入口.
2。将相关信息传递给搜索引擎:百度除了通过TITLE、页面关键词、H标签等来判断网页内容外,还使用锚文本来帮助判断。使用图片作为点击入口的超链接,也可以通过alt属性和title标签向百度传达你的感受。
3。提升排名:百度搜索引擎虽然减少了对超链接的依赖,但对超链接的认可度从未下降,对优质链接、正常链接、垃圾链接和作弊链接制定了更严格的标准。对于作弊链接,除了对链接进行过滤和清理外,对链接的受益站点也进行了一定的处罚。相应地,百度依然欢迎优质链接。
4。内容分享获得口碑:优质内容广为传播,网站由此获得的流量可能不多,但如果内容做得够好,也能树立自己的品牌效应。
严格来说,这不是超链接的功能。在百度眼里,网站的品牌远比超链接重要。
斩断买卖超链的利刃——路罗算法关键词2@>0&关键词3@>0
百度质量团队于2013年2月19日宣布推出luluo算法,再次强调买卖链接的行为:一方面,买卖链接的行为影响用户体验,干扰搜索引擎算法;链中介受益,真正勤奋好站的站长们,在这个严酷的互联网超链环境下,得不到应有的回报。因此,以下三类网站会在清除买卖链接计算的基础上不同程度地受到影响:
关键词4@>超链接中介:超链接应该是互联网上比较优质的推荐,是普通用户和网站之间对页面内容和网站的肯定,但是现在各种超链接作弊行为,让真实的肯定成为一些人谋取利益的敲门砖。用户无法根据链接推荐找到自己需要的优质资源,严重干扰搜索引擎对网站的评价。超链中介是在这个畸形的超链市场中形成的邪恶之花。我们有义务维护超链的纯粹性,保护用户的利益。我们也有责任引导站长朋友们停止花费不必要的开支。因此,超链中介会在我们的目标范围内。
关键词5@>推销链接网站:一个网站赚钱的方法很多,用优质的原创内容吸引老用户,引入优质广告资源,甚至持有线下活动。赚钱的方式是我们乐见的,也是网站的真正价值所在。但是,有些网站的内容基本上是采集来自网络,靠卖超链位置来活的;一些机构网站或被链接中介租用出售链接位置,使得超链市场的泡沫越来越大。此调整也会影响此类网站。
3、购买链接网站:百度一直保护和支持优质网站,这是从用户需求和创业站长的角度来看的必然结果。然而,一些站长并没有把精力花在提高网站的质量上,而是选择了耍花招,用金钱换超链接,欺骗搜索引擎,然后欺骗用户。对于没有太多资源和金钱来支付此类费用的创业站长来说,这也是一种无形的伤害。如果不加以遏制,劣币将驱逐良币,势必导致更糟糕的互联网环境。此类网站本身也会受到此次调整的影响。
以上是百度质量团队首次推出璐璐算法时的具体情况,后来被称为璐璐算法关键词2@>0。时隔5个月,百度质量团队再次推出鲁洛算法关键词3@>0,对明显提升进行更宽更严处理软文。
处罚对象主要是发布软文的新闻网站,包括软文交易平台和软文盈利网站。处罚包括:
关键词4@>对于软文的交易平台,将直接封禁;
关键词5@>对于软文 发布站,将有不同的处理方式。比如一条新闻网站,有发布软文的现象但情况不严重,搜索系统中的网站会被降级;如果大量使用子域发布软文,则直接屏蔽子域,清空百度动态;即使为发布软文创建了大量子域,也会屏蔽整个主域。
3、对于软文的收款站,如果一个网站的外链中有少量的软文外链,那么外链会过滤去掉权重计算系统,对受益站点观察一段时间,视情况做进一步处理;如果一个网站反向链接中有大量软文反向链接,那么受益站点将被降级或直接屏蔽。
第 4 部分 - 结果显示
结构化数据 - 帮助您的网站获得更多点击
网页经过爬取和建库,参与排序计算,最终展现在搜索引擎用户面前。目前百度搜索左侧的结果展示形式有很多种,比如:凤巢、品牌专区、自然结果等,如何让一个自然结果获得更多点击是站长考虑的重要部分。
目前自然结果分为两类,如下图所示。第一个是结构化的呈现,它有多种形式。目前覆盖了80%的搜索需求,即80%的关键词都会出现这种复杂的展示风格;第二种是单段摘要展示,最原创的展示方式,只有一个标题,两行摘要,部分链接。
显然,结构化呈现可以清晰地向用户传达信息,直击用户需求痛点,自然获得更好的点击量。目前结构化展示有几种风格:
1、一般问答:提取答案,便于搜索用户参考,部分结构化数据也提取问题
2、下载:
3。时间戳:对于时效性强的信息,提取吸引用户点击的时间,并回复条目,可以显示该链接的有效性和受欢迎程度
4、在线文档:出现文档格式*敏*感*词*
5、原创标签:原创标签的使用是最严格的。只有通过人工审核的网站才能有原创标签,在爬取和排序方面有一定的优待。因此,审核非常严格,质量得到严格控制。
6、带图片:扩大区域,方便用户了解网页内容,吸引点击
那么站长如何才能得到显示的结果:
1、参与原创Spark计划:百度站长平台提供申请入口,需人工审核后提交
2、结构化数据提交工具:/wiki/197
3、结构化数据标注工具:/itemannotator/index
4、搜索结果带图:具体要求在文章的主要位置;图片与内容相关;图片上没有文字;图片比例接近121*91
内容来自: