百度搜索引擎优化原理(UA即user-agent原则及调整方法根据上述网站设置)
优采云 发布时间: 2021-11-19 11:01百度搜索引擎优化原理(UA即user-agent原则及调整方法根据上述网站设置)
UA属性:UA,即user-agent,是http协议中的一个属性,代表终端的身份,向服务器展示我在做什么,然后服务器可以根据不同的身份做出不同的反馈结果。
Robots协议:robots.txt是搜索引擎访问网站时首先访问的文件。用于确定哪些允许爬取,哪些禁止爬取。robots.txt必须放在网站的根目录下,文件名必须小写。详细的robots.txt写法请参考。百度严格执行机器人协议。此外,它还支持在网页内容中添加名为robots、index、follow、nofollow等指令的meta标签。
百度蜘蛛爬网频率原理及调整方法
百度蜘蛛根据上面网站设置的协议抓取站点页面,但不可能对所有站点一视同仁。它会综合考虑网站的实际情况,确定一个抓取额度,每天对网站内容进行定量抓取,也就是我们常说的抓取频率。那么百度搜索引擎是用什么指标来判断爬取一个网站的频率的。主要有四个指标:
1.网站更新频率:更新来得快,更新来得慢,直接影响百度蜘蛛的访问频率
2. 网站 更新质量:更新频率增加,刚刚引起了百度蜘蛛的关注。百度蜘蛛对质量有严格的要求。如果网站每天更新的大量内容被百度蜘蛛判定为低质量页面仍然没有意义。
3. 连接性:网站应安全稳定,对百度蜘蛛保持开放。将百度蜘蛛经常关起门来可不是什么好事。
4、站点评价:百度搜索引擎会对每个站点都有一个评价,这个评价会根据站点情况不断变化。它是百度搜索引擎对该站点的基本评分(不是外界所指的百度权重),是百度内部非常机密的数据。网站评分从不单独使用,会与其他因素和阈值共同影响网站的爬取和排名。
爬取频率间接决定了一个数据库收录可以建多少页网站。如果这样一个重要的值不符合站长的期望,如何调整?百度站长平台提供了爬频工具(),并已完成多次升级。除了提供爬行统计外,该工具还提供了“频率调整”功能。站长可根据实际情况要求百度蜘蛛增加或减少对百度站长平台的访问量。该工具将根据网站管理员的意愿和实际情况进行操作。调整。
百度蜘蛛爬行异常的原因
部分网页内容质量高,用户可以正常访问,而百度蜘蛛却无法正常访问和抓取,导致搜索结果覆盖率不足,对百度搜索引擎和网站来说都是一种损失。百度称这种情况为“抓”取例外。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验缺陷,降低对网站的评价@网站在爬取、索引、排序方面都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
以下是网站站长抓取异常的一些常见原因:
1、服务器连接异常
服务器连接异常有两种情况:一种是站点不稳定,百度蜘蛛尝试连接你的网站服务器时暂时无法连接;另一个是百度蜘蛛一直无法连接到你的网站服务器。
服务器连接异常的原因通常是你的网站服务器太大,过载。也有可能你的 网站 运行不正常。请检查网站的web服务器(如apache、iis)是否安装运行正常,并使用浏览器查看主页是否可以正常访问。您的网站和主机也可能屏蔽了百度蜘蛛的访问,您需要检查网站和主机的防火墙。
2、网络运营商异常:网络运营商有两种:电信和联通。百度蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况,您需要联系网络服务运营商,或者购买双线服务的空间或购买CDN服务。
3、DNS异常:当百度蜘蛛无法解析您的网站 IP时,就会出现DNS异常。可能是你的网站IP地址错误,或者域名服务商屏蔽了百度蜘蛛。请使用 WHOIS 或主机检查您的 网站 IP 地址是否正确且可解析。如果不正确或无法解决,请联系域名注册商更新您的IP地址。
4.IP禁令:IP禁令是:限制网络的出口IP地址,禁止该IP段的用户访问内容,这里特指禁止BaiduspiderIP。仅当您的 网站 不希望百度蜘蛛访问时才需要此设置。如果您想让百度蜘蛛访问您的网站,请在相关设置中检查是否错误添加了百度蜘蛛IP。也有可能你网站所在的空间服务商被封禁了百度IP,则需要联系服务商更改设置。
5、UA禁止:UA是User-Agent,服务器通过UA识别访问者的身份。当网站返回异常页面(如403、500)或跳转到其他页面)访问指定的UA时,即被UA禁止。当你的网站不想要百度蜘蛛时,只有访问才需要这个设置。如果想让Baiduspider访问你的网站,useragent相关设置中是否有Baiduspider UA,及时修改。
6、死链接:页面无效,不能向用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接两种形式:
协议死链接:页面的TCP协议状态/HTTP协议状态明确指示的死链接,如404、403、503状态。
内容死链接:服务器返回状态是正常的,但是内容已经变为不存在、删除或者需要权限信息的页面,与原内容无关。
对于死链接,我们建议网站使用协议死链接,通过百度站长平台-死链接工具提交给百度,以便百度更快找到死链接,减少死链接对用户和搜索引擎的负面影响。
7.异常跳转:将网络请求重定向到另一个位置是一个跳转。异常跳转是指以下几种情况:
1)当前页面无效(内容被删除、死链接等),直接跳转到上一目录或首页。百度建议站长删除无效页面的入口超链接
2) 跳转到错误或无效的页面
注意:对于长期重定向到其他域名,如网站更改域名,百度建议使用301重定向协议进行设置。
8. 其他例外:
1)针对百度引用的异常:从百度返回引用的网页行为与正常内容不同。
2) 百度UA异常:网页返回百度UA的行为与页面原创内容不同。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,导致用户通过搜索结果进入页面后跳转。
4) 压力过大导致意外封禁:百度会根据网站规模、流量等信息自动设置合理的爬取压力。但是,在异常情况下,例如压力控制异常,服务器会根据自身的负载偶尔被禁止进行保护。在这种情况下,请在返回码中返回503(它的意思是“服务不可用”),这样百度蜘蛛会在一段时间后再次尝试抓取该链接,如果网站空闲,则抓取成功。
判断新链接的重要性
好了,上面我们讲了影响百度蜘蛛正常爬取的原因,接下来我们讲一下百度蜘蛛的一些判断原则。在建库链接之前,百度蜘蛛会对页面进行初步的内容分析和链接分析,通过内容分析判断该网页是否需要建索引库,通过链接分析找到更多的网页,然后抓取更多的网页-analysis-——是否建库&找新链接流程。理论上,百度蜘蛛会检索新页面上所有“见过”的链接。那么,面对众多的新链接,百度蜘蛛是根据什么判断哪个更重要呢?两个方面:
一、对用户的价值:
1.独特的内容,百度搜索引擎喜欢独特的内容
2、主体突出。不要显得网页的主要内容不突出,被搜索引擎误判为空白短页,没有被抓取。
3、内容丰富
4. 广告适当
二、链接的重要性:
1.目录级别-浅优先级
2.本站链接的流行度
百度优先建设重要图书馆的原则
百度蜘蛛抓取的页面数量并不是最重要的。重要的是一个索引库建了多少页,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库,普通的网页会留在普通的图书馆,更糟糕的网页会被分配到低级别的图书馆作为补充资料。目前60%的检索需求只调用重要的索引库就可以满足,这就解释了为什么有些网站的收录量超高,但流量并不理想。
那么,哪些网页可以进入优质索引库呢?其实总的原则是一个:对用户有价值。包括但不仅限于:
1、时效性与价值性页面:在这里,时效性与价值性是平行关系,缺一不可。有的网站为了生成时间敏感的内容页面,做了很多采集的工作,结果是一堆毫无价值的页面,百度不想看到。
2. 优质内容的专题页:专题页的内容可能不完全原创,也就是可以很好的整合各方内容,或者一些新鲜的内容,比如意见、评论,可以为用户添加更丰富、更全面的内容。
3、高价值的原创内容页面:百度将原创定义为文章经过一定的成本和大量的经验形成的。不要再问我们伪原创 是否是原创。
4.重要的个人页面:这里只是一个例子。科比已经在新浪微博上开设了账号,需要不经常更新,但对于百度来说,它仍然是一个极其重要的页面。
哪些页面不能建入索引库
上述优质网页均收录在索引库中。其实网上的大部分网站根本就不是百度的收录。不是百度没找到,而是建库前的筛选链接被过滤掉了。那么一开始被过滤掉了什么样的网页:
1. 内容重复的网页:网上已有的内容无需百度收录。
2. 主要内容短而空的网页
1)部分内容使用了百度蜘蛛无法解析的技术,如JS、AJAX等,虽然用户访问时可以看到丰富的内容,但还是会被搜索引擎抛弃
2) 加载过慢的网页也可能被视为空的短页面。请注意,广告加载时间收录在网页的整体加载时间中。
3)很多主体不突出的网页,即使爬回来,也会在这个链接中被丢弃。
3. 一些作弊页面
第 2 节 - 搜索和排序
众所周知,搜索引擎的主要工作流程包括:抓取、存储、页面分析、索引、检索等主要流程。上一章我们主要介绍了爬取和存储链接中的一些内容。本章简要介绍索引系统。
在以亿为单位的网页库中搜索某个特定的关键词,就像大海捞针。有可能在一定时间内完成搜索,但用户等不起。从用户体验的角度来看,我们必须以毫秒为单位。用户对结果满意,否则用户只会流失。我们怎样才能满足这个要求?
如果可以知道用户搜索了哪些页面关键词(查询切词后),那么用户检索的过程可以想象为:词切词后收录查询不同部分的页面集合过程,检索变成了页面名称之间的比较和交叉。这样,以毫秒为单位的亿次检索成为可能。这就是所谓的倒排索引和交叉检索的过程。建立倒排索引的基本过程如下:
1、页面分析的过程,其实就是对原页面的不同部分进行识别和标记,如标题、关键词、内容、链接、锚点、评论、其他不重要的区域等;
2、分词的过程实际上包括分词、同义词转换、同义词替换等,以页面标题的分词为例,得到的数据将是这样的数据:term text, termid, part of Speech, part演讲等;
3、前面的准备工作完成后,下一步就是创建倒排索引,形成{termàdoc}。下图显示了索引系统中的倒排索引过程。
倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来,我们要介绍索引系统建立倒排索引的重要过程——存储和写入。
倒排索引的重要过程——入库和写入
索引系统需要在倒排索引建立结束时有一个存储和写入过程。这个过程为了提高效率,还需要将所有的terms和offsets保存在文件头中,并对数据进行压缩,涉及到的技术性这里就不多说了。这里简单介绍一下索引后的检索系统。
检索系统执行流程
检索系统主要由五部分组成,如下图所示:
(1)查询字符串切分是对用户的查询词进行切分,为后续查询做准备。以“地铁10号线故障”为例,可能的切分如下(同义词问题暂时略过):
10 0x123abc
编号 0x13445d
行 0x234d
地铁 0x145cf
故障 0x354df
(2) 找出收录每个term的文档集合,即找到候选集合,如下:
0x123abc 1 2 3 4 7 9……
0x13445d 2 5 8 9 10 11……
...
...
(3)对于交互,上面的交互,文档2和文档9可能就是我们需要找的,整个交互过程其实是关系到整个系统的性能的,包括缓存的使用等意味着优化性能;
(4)各种过滤,例子可能包括过滤掉死链接、重复数据、*敏*感*词*、垃圾结果,以及你所知道的;
(5)最终排名,将最能满足用户需求的结果排在第一位,可能收录有用的信息如:网站综合评价、网页质量、内容质量、资源质量、匹配度、分散程度、及时性等。
影响搜索结果排名的因素
上面的内容看起来有点深奥,因为涉及到很多技术细节,这里只能说一下。然后说一下大家最感兴趣的排序问题,用户输入关键词进行搜索。百度搜索引擎在排序链接上要做两件事。一是从索引库中提取相关网页,二是根据不同维度对提取的网页进行打分。进行综合排序。“不同维度”包括:
1、相关性:网页内容与用户搜索需求的匹配程度,例如网页中收录的用户查看关键词的次数,这些关键词出现在什么地方;外部网页指向页面使用的锚文本 Wait
2、权限:用户喜欢网站提供的内容,具有一定的权限。相应地,百度搜索引擎也更加相信优质权威网站提供的内容。
3. 时效性:时效性结果是指新出现的网页,该网页带有新鲜的内容。目前,时间敏感的结果在搜索引擎中变得越来越重要。
4、重要性:网页内容与用户检查需求匹配的重要程度或流行程度
5.丰富性:丰富性看似简单,其实是一个涵盖面很广的命题。可以理解为网页内容丰富,完全可以满足用户的需求;既可以满足用户的单一需求,又可以满足用户的扩展需求。
6. 流行度:指网页是否流行。
以上就是百度搜索引擎在决定搜索结果排名时考虑的六大原则。那么六项原则的重点是什么?实际应用中哪个原理占的比例最大?事实上,这里没有明确的答案。在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”可以占整体排名的 70%。但是,随着互联网的不断发展,检索技术的进步,网页数量的爆炸式增长,相关性不再是问题。因此,百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,促进更合理的排名策略。
低质量网页的狙击策略——石榴算法
我们理解网站生存和发展需要资金支持,我们从不反对网站添加各种合法广告。不要再问我们“我们网站添加XX联盟广告会被处罚吗”这种问题。有的网站在百度上排名不错,但在页面上投放了大量损害用户体验的广告,严重影响了百度搜索引擎的用户体验。为此,百度质量团队于 2013 年 5 月 17 日发布公告:针对低质量网页推出石榴算法,旨在打击含有大量不良广告、阻碍用户正常浏览的网页,尤其是低质量广告和混乱页面的弹出窗口。主要内容收录垃圾邮件广告的页面。
如以下网页截图所示,用户需要很长时间才能找到真正的下载地址,百度无法接受。
百度质量团队希望站长能从用户的角度出发,考虑长远发展,在不影响用户体验的前提下合理投放广告,赢得用户的长期青睐是网站发展壮大的基础@>。
外部投票
外链的作用(2014版)
曾经,“内容为王,超级链为王”的说法已经流行多年。网页的相关性和重要性是通过超链接的分数计算来体现的。的确,它曾经是搜索引擎用来评估网页的重要参考因素之一,并且会直接参与。对搜索结果进行排序和计算。但是,随着越来越多的SEO人员了解这项技术,Hyperlink作为投票的意义逐渐失去了意义。无论是谷歌还是百度,对超链接数据的依赖越来越低。那么,超链接现在扮演什么角色呢?
1. 吸引蜘蛛爬取:虽然百度在挖掘新好网站、开通多个数据提交入口、避开社交发现渠道等方面下了不少功夫,但超链接仍然是发现收录链接的最重要入口。
2、向搜索引擎传递相关信息:百度除了通过TITLE、页面关键词、H标签等判断网页内容外,还会使用锚文本辅助判断。将图片作为点击入口的超链接,也可以通过alt属性和title标签向百度发送感受。
3、提升排名:百度搜索引擎虽然减少了对超链接的依赖,但对超链接的认可度却从未降低,对优质链接、正常链接、垃圾链接和作弊链接制定了更严格的标准。对于作弊链接,除了对链接进行过滤和清理之外,对链接的受益站点也进行一定程度的处罚。因此,百度仍然欢迎高质量的链接。
4. 内容分享与口碑:优质内容被广泛传播,网站可能不会因此获得多少流量,但如果内容足够,也可以建立自己的品牌效应。
严格来说,这不属于超链接的作用。在百度眼中,网站的品牌远比超链接重要。
最前沿的买卖超链接-绿萝算法1.0&2.0
2013年2月19日,百度质量团队发布公告,推出绿萝算法,重申买卖链接行为:一方面,买卖链接行为影响用户体验,干扰搜索引擎算法;另一方面,它允许投机性网站建设者受益和超链接中介。有利可图,在这种恶劣的互联网超链接环境下,真正勤奋做好的站长们,是得不到应有的回报的。因此,以下三类网站将在清除买卖链接行为的外链计算的基础上受到不同程度的影响:
1、 超链中介:超链应该是网上比较优质的推荐。是普通用户和网站之间对页面内容和网站价值的肯定,但现在各种超链接作弊,已经把真实的肯定变成了某些人谋取利益的垫脚石。用户无法根据链接推荐找到自己需要的优质资源,严重干扰搜索引擎对网站的评价。超链中介是这个畸形的超链市场形成的邪恶之花。我们有义务维护Hyperchain的纯洁性以保护用户的利益,同时我们也有责任引导站长朋友停止花费不必要的开支。所以,
2、 销售链接网站:有很多方法可以在网站上赚钱。用优质的原创内容吸引老用户,引入优质广告资源,甚至举办线下活动。这些盈利方式都是我们乐见的,也是一个网站的真正价值所在。不过有些网站的内容基本都是采集来自网络,靠卖超链接位置直播;一些机构网站可能会被链接中介租用出售链接位置,使得超链接市场泡沫越来越大。本次调整也将影响此类网站。
3、购买链接网站:百度一直在保护和培育优质网站。这是从用户需求和创业站长的角度来看的必然结果。但是,有的站长并没有把精力花在提升网站的质量上,而是选择花招,用超链接换钱,欺骗搜索引擎,进而欺骗用户。对于没有太多资源和钱花在这些开支上的创业站长来说,也是一种无形的伤害。如果不加以遏制,劣币驱逐良币,必然导致互联网环境更糟。此类网站本身的调整也会受到影响。
以上是百度质量团队最初推出绿萝算法时的具体情况,后来称为绿萝算法1.0。五个月后,百度质量团队再次推出绿萝算法2.0,对软文的明显提升进行了更广泛、更严格的处理。
处罚的重点是发布新闻网站软文,包括软文交易平台和软文收入网站。处罚包括:
1、将直接被软文交易平台屏蔽;
2、对于软文发布站,会根据不同程度进行处理。比如一条新闻网站,有发布软文但情节不严重的现象,网站在搜索系统中会降级;利用子域发布大量软文,该子域将被直接屏蔽,并清除百度新闻源;更有什者,会创建大量子域来发布软文,在这种情况下,整个主域都会被封锁。
3、对于软文的受益站,网站的外链中存在少量的软文外链,则外链会被过滤掉,从重量计算系统。受益站点将被观察一段时间,并根据情况进一步处理;一个网站外链收录大量的软文外链,此时受益站点会降级或直接被屏蔽。
第 4 节 - 结果展示
结构化数据帮助网站获得更多点击
网页经过爬取、建库、参与排序计算,最终呈现在搜索引擎用户面前。目前,百度搜索左侧显示的结果形式有多种,如:风潮、品牌专区、自然结果等,自然结果如何获得更多点击,是站长考虑的重要部分。
目前,自然结果分为两类,如下图所示。一是结构化呈现,形式多样。目前覆盖了80%的搜索需求,也就是80%的关键词都会有这种复杂的展示风格;第二种是摘要展示,最原创的展示方式,只有一个标题,两行摘要,部分链接。
显然,结构化呈现可以清晰地向用户传达信息,直击用户需求痛点,自然获得更好的点击。目前有几种结构化呈现方式:
1.一般问答:提取答案方便搜索用户参考,部分结构化数据也提取问题
2.下载:
3.时间戳:对于时间敏感的信息,提取时间吸引用户点击,回复物品,可以显示这个链接的有效性和热度
4.在线文档:出现文档格式*敏*感*词*
5、原创标签:原创标签的使用最为严谨。只有通过人工审核的网站才能有原创 标志。在爬取和排序方面有一定的优势,所以审稿非常严格,严格把控质量。
6.带图片:扩大区域,方便用户了解网页内容,吸引点击
那么站长如何获取结果显示:
1. 参与原创 Spark项目:百度站长平台提供申请入口,需要人工审核和数据提交
2.结构化数据提交工具:/wiki/197
3.结构化数据标注工具:/itemannotator/index
4、图片搜索结果:具体要求为:文章的主体位置;图片与内容相关;图片上没有文字;图片比例接近121*91
内容来自: