seo工具-百度快照诊断功能(新版移动ua:Mozilla/5.0(Linux)u;+)之前通过“+”进行识别)

优采云 发布时间: 2021-10-17 19:18

  seo工具-百度快照诊断功能(新版移动ua:Mozilla/5.0(Linux)u;+)之前通过“+”进行识别)

  新版手机UA:

  Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) 版本/5.1 Mobile Safari/10600.6.3(兼容;百度蜘蛛/2.0;+)

  电脑用户:

  Mozilla/5.0(兼容;百度蜘蛛/2.0;+)

  请注意之前用“+”标识的网站!您需要修改识别方法。新的正确识别百度蜘蛛手机UA的方法如下:

  1.通过关键词“Android”或“Mobile”识别,判断为移动访问或爬取。

  2.通过关键词"Baiduspider/2.0"判断为百度爬虫。

  还需要强调的是,对于机器人的封禁,如果封禁代理是百度蜘蛛,PC端和手机端都会生效。即无论是PC还是手机百度蜘蛛,都不会抓取被拦截的对象。强调这一点的原因是一些代码适配网站(相同的url,PC ua打开时是PC页面,移动UA打开时是移动页面),我想设置robots代理禁止只允许移动百度蜘蛛的目的爬虫,但是因为PC端和手机端百度蜘蛛的代理是百度蜘蛛,所以这种方式是非常不可取的。

  百度蜘蛛是站长的客人,但是我们曾经遇到过站长问这个问题:我们如何判断疯狂抓取我们内容的蜘蛛网站是否是百度?其实站长可以通过DNS反查IP来判断蜘蛛是否来自百度搜索引擎。不同平台的验证方法也不同。比如linux/windows/os三个平台下的验证方法如下:

  1、在linux平台下,可以使用hostip命令解密ip来判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp。如果不是 *. 或者*.baidu.jp,都是假的。

  

  2、windows平台或IBMOS/2平台下,可以使用nslookupip命令解密ip来判断是否来自百度蜘蛛。打开命令处理器,输入nslookupxxx.xxx.xxx.xxx(IP地址)解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp,而不是 *. 或者 *.baidu.jp 是冒充的。

  3、 在macos平台下,可以使用dig命令破译ip来判断是否来自百度蜘蛛。打开命令处理器,输入digxxx.xxx.xxx.xxx(IP地址)解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp,而不是 *. 或者 *.baidu.jp 是冒充的。

  什么是百度蜘蛛IP

  即使很多站长知道如何判断百度蜘蛛,他们仍然不断问“百度蜘蛛的IP是什么”。我们明白站长的意思。我们想把百度蜘蛛的IP加入白名单,只允许白名单下的IP爬取网站,避免采集等行为。

  但我们不建议网站管理员这样做。虽然百度蜘蛛确实有一个IP池,并且真实IP在这个IP池中切换,但我们不能保证这个IP池作为一个整体不会发生变化。因此,建议站长经常阅读日志,发现恶意蜘蛛后将其加入黑名单,以保证百度的正常抓取。

  同时,我们再次强调,以IP来区分百度蜘蛛是荒谬的。所谓的“沙盒蜘蛛”、“断电蜘蛛”等等,从来就没有存在过。

  机器人是网站与蜘蛛沟通的重要渠道。本站通过robots文件声明网站中不想被搜索引擎收录或指定搜索引擎搜索到的部分仅为收录特定部分。请注意,只有当您的 网站 收录您不想被 收录 搜索的内容时,您才需要使用 robots.txt 文件。如果您想要搜索引擎收录网站 上的所有内容,请不要创建robots.txt 文件。

  Robots 文件通常放置在根目录中,并收录一个或多个记录。这些记录由空行分隔(以 CR、CR/NL 或 NL 作为终止符)。每条记录的格式如下:

  ":"

  可以在这个文件中使用#做注释,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 和 Allow 行。详细情况如下:

  User-agent:此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被“robots.txt”限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”等一条记录。如果您在“robots.txt”文件中添加“User-agent:SomeBot”和几行禁止和允许行,则名称“SomeBot”仅受“User-agent: SomeBot”后的禁止和允许行的限制。

  Disallow:此项的值用于描述您不想访问的一组 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”则允许机器人访问/help.html、/helpabc。 html,但不是访问 /help/index.html。“Disallow:”表示允许机器人访问网站的所有URL,并且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或者是一个空文件,这个网站 对所有搜索引擎机器人都是开放的。

  允许:此项的值用于描述一组您希望访问的 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。

  使用“*”和“$”:Baiduspider支持使用通配符“*”和“$”来模糊匹配url。

  "*" 匹配 0 个或多个任意字符

  "$" 匹配行尾。

  最后需要注意的是:百度会严格遵守robots相关协议,请注意区分您不想被抓取的目录或收录的情况。百度会把robots中写的文件和你不想被爬取的文件与收录的目录进行精确匹配,否则robots协议不会生效。

  机器人需求使用对应表

  上面提到的理论太多了。有没有简单的对比表告诉我在什么样的需求场景下如何写robots文件?一些:

  

  Meta robots标签是页面头部的一种标签,也是用来禁止搜索引擎索引页面内容的指令。目前百度只支持nofollow和noarchive

  nofollow:禁止搜索引擎关注此页面上的链接

  如果您不希望搜索引擎跟踪此页面上的链接并且不传递链接的权重,请将此元标记放置在页面的一部分中:

  如果您不想让百度跟踪特定链接,百度也支持更精确的控制,请直接在链接上写上这个标记:登录

  要允许其他搜索引擎跟踪,但只阻止百度跟踪指向您页面的链接,请将此元标记放在页面的一部分中:

  noarchive:禁止搜索引擎在搜索结果中显示网页快照

  为了防止所有搜索引擎显示您的 网站 快照,请将此元标记放在页面的一部分中:

  要允许其他搜索引擎显示快照,但只阻止百度显示,请使用以下标签:

  注意:此标签仅禁止百度显示网页快照。百度将继续对网页进行索引,并在搜索结果中显示网页摘要。

  对于百度搜索引擎来说,蜘蛛黑洞特指以极低的成本创建大量参数过多、内容相似但网址不同的动态网址。它就像一个无限循环的“黑洞”,会蜘蛛蜘蛛。卡住。Spider 浪费了大量资源来抓取但无效的网页。

  比如很多网站都有过滤功能。过滤功能生成的网页经常被搜索引擎抓取,其中很大一部分是搜索价值较低的页面。比如“500-1000之间租房子”,一是网站中基本没有相关资源(包括现实中),二是网站用户和搜索引擎用户都没有这种搜索习惯. 这类网页被搜索引擎大量抓取,只能占用网站宝贵的抓取配额,那么如何避免这种情况呢?

  我们以北京美团为例,看看美团是如何利用机器人巧妙避开这种蜘蛛黑洞的:

  对于普通筛选结果页面,使用静态链接,例如:

  它也是一个条件过滤结果页面。当用户选择不同的排序条件时,会生成不同参数的动态链接,即使是相同的排序条件(例如,都按销量降序排列),生成的参数也各不相同。的。例如:%2Fpoi.0.0.i1afqhek%2Fpoi.0.0.i1afqi5c

  对于美团来说,让搜索引擎抓取筛选结果页面就足够了,各种带参数的结果排序页面通过robots规则拒绝搜索引擎。robots.txt的文件使用有一个规则:Disallow: /*?*,禁止搜索引擎访问网站中的所有动态页面。美团网采用这种方式,优先让蜘蛛展示优质页面,屏蔽低质量页面,为蜘蛛提供更友好的网站结构,避免形成黑洞。

  目前,百度图片搜索也使用与百度网页搜索相同的蜘蛛。如果要禁止百度蜘蛛抓取网站上的所有图片,禁止或允许百度蜘蛛抓取网站上特定格式的图片文件,可以通过设置robots来实现:

  禁止百度蜘蛛抓取网站上的所有图片

  只允许抓取网页,不允许抓取图片。

  用户代理:百度蜘蛛

  禁止:/*.jpg$

  禁止:/*.jpeg$

  禁止:/*.gif$

  禁止:/*.png$

  禁止:/*.bmp$

  只允许百度蜘蛛抓取网页和.gif格式的图片

  允许抓取网页和gif格式的图片,但不允许抓取其他格式的图片

  用户代理:百度蜘蛛

  允许:/*.gif$

  禁止:/*.jpg$

  禁止:/*.jpeg$

  禁止:/*.png$

  禁止:/*.bmp$

  只有百度蜘蛛禁止抓取.jpg格式的图片

  用户代理:百度蜘蛛

  禁止:/*.jpg$

  Html 状态码也是 网站 与蜘蛛沟通的渠道之一。它将告诉蜘蛛当前网页的状态,蜘蛛将决定下一步该做什么,下次抓或不抓或检查。200状态码大家都很熟悉了,下面介绍几种常见的无效网页使用的状态码:

  [404] 404 返回码的含义是“NOTFOUND”。百度会认为该网页无效,因此通常会从搜索结果中删除,蜘蛛会在短期内再次找到该网址,而不会对其进行抓取。

  [503] 503返回码的意思是“ServiceUnavailable”。百度会认为网页暂时无法访问,通常网站暂时关闭,带宽受限等都会造成这种情况。对于返回503的网页,百度蜘蛛不会直接删除该网址,短期内还会再次访问。届时,如果网页已经恢复,就可以正常抓取;如果继续返回503,那么短时间内会被多次访问。但是如果网页长时间返回503,那么这个url仍然会被百度认为是失效链接,会从搜索结果中删除。

  [301] 301返回码的意思是“MovedPermanently”,百度会认为网页当前重定向到了新的url。在网站迁移、域名更换或网站改版的情况下,建议使用301返回码,以尽量减少改版带来的流量损失。虽然百度蜘蛛现在对 301 跳转的响应周期更长,但我们仍然建议您这样做。

  一些网站把未构建的页面放到网上,这些页面被百度抓取时返回码是404,所以这些页面被百度抓取后会作为死链接被删除。不过这个页面会在隔天或者几天后建好,会显示在网站中,不过之前因为已经被百度删除为死链接,所以只能等这些链接被删除了再次发现,然后 catch 才可以显示出来。这样的操作最终会导致部分页面在一段时间内不会出现在百度中。例如,一个大型门户网站网站爆料了很多时效性主题的新闻,而百度不及时收录。验证后发现是因为页面未完成而导致页面上线,返回404。

  对于此类问题,建议使用503返回码网站。百度爬虫收到503返回码后,会定时访问这个地址。可以再次爬取,保证页面被及时爬取和索引,避免将未建内容设置为404后造成不必要的收录和流量损失。

  其他建议和结论:

  1、 如果百度蜘蛛对您的网站抓取压力过大,请尽量不要使用404,也建议返回503,这样百度蜘蛛过一段时间会再次尝试抓取这个链接。如果该站点当时是免费的,它将被成功抓取。

  2、 如果网站暂时关闭或者页面还没有准备好上线,当网页无法打开或没有构建时,不要立即返回404。建议使用 503 状态。503可以通知百度蜘蛛页面暂时不可用,请稍后再试。

  在百度站点,“连接率为0”表示百度蜘蛛在访问站点时发现了问题。问题非常严重。如果有一天百度蜘蛛无法访问,可能会给网站带来灾难性的损失。

  一、什么是连接率

  因为它是一个比率,所以它是一个统计相关的概念。我们不妨这样理解一个网站的连通率:百度蜘蛛在爬取一个网站页面时计算出的概率。比如它在一个网站中抓取了N个页面,这N个页面可以被蜘蛛打开并成功抓取,所以连接率为N/N=100%,反之,如果蜘蛛抓取了N个页面, 如果能成功抓取 M 个页面,则连接率为 M/N

  这里有一些常识:

  1、 不是网站被算法惩罚导致连通率为0,也不是网站流量掉了,连通率很低;

  2、 连接率代表百度蜘蛛获取网站数据的情况。如果连接速率值很低或为0,甚至可能维持网站等问题的正常收录;

  3、 如果网站被判断为无法连接,那么如果一个未连接的站点在百度排名,会极大影响搜索用户的体验,因此百度会对该站点采取有效引流的方式在索引中清零操作中,有的站长会发现自己的网站索引量突然大幅下降,甚至索引暂时清零,随后网站百度搜索流量急剧下降。性事件会导致站长猜测他们的网站被百度惩罚了。其实,站长首先要注意网站的连接。

  二、 提取核心词

  在上面的概念中,我们需要注意几个词:“百度蜘蛛”;"爬行"; "N页"; "M 页"; “都可以打开并成功抓取”。

  

  三、 当连接速率很低或为 0 时

  我们抓住上面提取的5个核心词进行分析。

  (一)百度蜘蛛

  1、谨防操纵或禁止百度蜘蛛访问

  (1)由于百度蜘蛛爬网量大等原因,部分服务器承受压力,这些网络商或网站运营商出于某些利益的考虑,无意或故意屏蔽了百度蜘蛛,造成部分或者网站数据不是所有百度蜘蛛ip都可用;

  (2)一些网站运营商或互联网厂商对待蜘蛛的方式不同,比如国外蜘蛛ip、山东蜘蛛ip、北京蜘蛛ip等返回的数据不同,搬花搬木的方法层出不穷,并且这个过程很可能导致百度蜘蛛的异常行为或异常状态返回;

  因此,首先要确保百度蜘蛛的访问不被操纵或禁止。

  2、注意事项

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线