百度网页关键字抓取(百度是怎么计算分配流量的呢?站点抓取流量暴增的原因)

优采云 发布时间: 2021-11-15 03:16

  百度网页关键字抓取(百度是怎么计算分配流量的呢?站点抓取流量暴增的原因)

  蜘蛛的网站爬行次数突然增加,往往会给网站带来很大的困扰。他们正在寻找将百度蜘蛛IP列入白名单的平台,但实际上百度蜘蛛IP会随时更改,所以我不敢发布,担心网站所有者。设置不影响及时抓取效果。百度如何计算和分配抓取流量?网站抓取流量激增的原因有哪些?

  一般来说,百度蜘蛛会根据网站大小、历史上每天生成的新链接数网站、被抓取网页的综合质量得分等综合计算抓取流量,同时兼顾站长的抓取网站 频率工具中设置的最大可接受爬网值。

  从目前追踪到的爬虫流量突然增加的情况来看,原因可以分为以下几类:

  1. 百度蜘蛛发现站点中有很多JS代码,调用了大量的资源来解析和获取JS代码

  2、百度其他部门(如业务、图片等)的蜘蛛在爬,但流量控制不好

  3、已经爬过的链接评分不好,垃圾太多,导致蜘蛛重新爬

  4. 网站被攻击,有人模仿百度爬虫(见下面关于百度蜘蛛)

  如果站长已经排除了自己的问题和假冒问题,并确认百度蜘蛛抓取了过多的流量,您可以通过百度反馈中心()反馈。注意:请务必提供捕获日志的详细屏幕截图。

  关于百度蜘蛛

  如何正确识别百度蜘蛛手机UA

  新版手机UA:

  Mozilla/5.0 (Linux;u;Android4.2.2;zh-cn;)

  AppleWebKit/534.46 (KHTML,like Gecko)

  版本/5.1 Mobile Safari/10600.6.3(兼容;百度蜘蛛/2.0;+html)

  PC ua:Mozilla/5.0(兼容;百度蜘蛛/2.0;+)

  请注意之前用“+”标识的网站!需要修改识别方式,新的正确识别百度蜘蛛手机UA的方法如下:

  1.通过关键词“Android”或“Mobile”识别,判断为移动访问或爬取。

  2.通过关键词"Baiduspider/2.0"判断为百度爬虫。

  还需要强调的是,对于机器人的封禁,如果封禁代理是百度蜘蛛,PC端和手机端都会生效。即无论是PC还是手机百度蜘蛛,都不会抓取被拦截的对象。强调这一点的原因是一些代码适配网站(相同的url,PC ua打开时是PC页面,移动UA打开时是移动页面),我想设置robots代理禁止只允许移动Baiduspider的目的爬虫,但是因为PC端和手机端百度蜘蛛的代理是百度蜘蛛,所以这种方式是非常不可取的。

  如何识别百度蜘蛛

  百度蜘蛛是站长的客人,但也有站长会问这样的问题:

  我们如何判断那些疯狂抓我们网站的蜘蛛是否属于百度?

  其实站长可以通过DNS反查IP来判断蜘蛛是否来自百度搜索引擎。不同平台的验证方法也不同。比如linux/windows/os三个平台下的验证方法如下:

  1、 在linux平台下,可以使用hostip命令解密ip来判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp。如果不是 *. 或者*.baidu.jp,都是假的。

  2、windows平台或IBMOS/2平台下,可以使用nslookupip命令解密ip来判断是否来自百度蜘蛛。打开命令处理器,输入nslookupxxx.xxx.xxx.xxx(IP地址)解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp,而不是 *. 或者 *.baidu.jp 是冒充的。

  3、 在macos平台下,可以使用dig命令破译ip来判断是否来自百度蜘蛛。打开命令处理器,输入digxxx.xxx.xxx.xxx(IP地址)解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp,而不是 *. 或者 *.baidu.jp 是冒充的。

  什么是百度蜘蛛IP

  即使很多站长知道如何判断百度蜘蛛,他们仍然不断问“百度蜘蛛的IP是什么”。并且想把百度蜘蛛的IP加入白名单,只允许白名单下的IP爬取网站,避免采集等行为。

  百度表示不建议站长这样做。虽然百度蜘蛛确实有一个IP池,真正的IP是在这个IP池中切换的,但是不能保证这个IP池作为一个整体不会发生变化。因此,建议站长经常阅读日志,发现恶意蜘蛛后将其加入黑名单,以保证百度的正常抓取。

  同时,百度也强调,通过IP来区分百度蜘蛛的属性是荒谬的。所谓的“沙盒蜘蛛”、“断电蜘蛛”等等,从来就没有存在过。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线