百度网页关键字抓取(百度是怎么计算分配流量的呢?站点抓取流量暴增的原因)
优采云 发布时间: 2021-11-15 03:16百度网页关键字抓取(百度是怎么计算分配流量的呢?站点抓取流量暴增的原因)
蜘蛛的网站爬行次数突然增加,往往会给网站带来很大的困扰。他们正在寻找将百度蜘蛛IP列入白名单的平台,但实际上百度蜘蛛IP会随时更改,所以我不敢发布,担心网站所有者。设置不影响及时抓取效果。百度如何计算和分配抓取流量?网站抓取流量激增的原因有哪些?
一般来说,百度蜘蛛会根据网站大小、历史上每天生成的新链接数网站、被抓取网页的综合质量得分等综合计算抓取流量,同时兼顾站长的抓取网站 频率工具中设置的最大可接受爬网值。
从目前追踪到的爬虫流量突然增加的情况来看,原因可以分为以下几类:
1. 百度蜘蛛发现站点中有很多JS代码,调用了大量的资源来解析和获取JS代码
2、百度其他部门(如业务、图片等)的蜘蛛在爬,但流量控制不好
3、已经爬过的链接评分不好,垃圾太多,导致蜘蛛重新爬
4. 网站被攻击,有人模仿百度爬虫(见下面关于百度蜘蛛)
如果站长已经排除了自己的问题和假冒问题,并确认百度蜘蛛抓取了过多的流量,您可以通过百度反馈中心()反馈。注意:请务必提供捕获日志的详细屏幕截图。
关于百度蜘蛛
如何正确识别百度蜘蛛手机UA
新版手机UA:
Mozilla/5.0 (Linux;u;Android4.2.2;zh-cn;)
AppleWebKit/534.46 (KHTML,like Gecko)
版本/5.1 Mobile Safari/10600.6.3(兼容;百度蜘蛛/2.0;+html)
PC ua:Mozilla/5.0(兼容;百度蜘蛛/2.0;+)
请注意之前用“+”标识的网站!需要修改识别方式,新的正确识别百度蜘蛛手机UA的方法如下:
1.通过关键词“Android”或“Mobile”识别,判断为移动访问或爬取。
2.通过关键词"Baiduspider/2.0"判断为百度爬虫。
还需要强调的是,对于机器人的封禁,如果封禁代理是百度蜘蛛,PC端和手机端都会生效。即无论是PC还是手机百度蜘蛛,都不会抓取被拦截的对象。强调这一点的原因是一些代码适配网站(相同的url,PC ua打开时是PC页面,移动UA打开时是移动页面),我想设置robots代理禁止只允许移动Baiduspider的目的爬虫,但是因为PC端和手机端百度蜘蛛的代理是百度蜘蛛,所以这种方式是非常不可取的。
如何识别百度蜘蛛
百度蜘蛛是站长的客人,但也有站长会问这样的问题:
我们如何判断那些疯狂抓我们网站的蜘蛛是否属于百度?
其实站长可以通过DNS反查IP来判断蜘蛛是否来自百度搜索引擎。不同平台的验证方法也不同。比如linux/windows/os三个平台下的验证方法如下:
1、 在linux平台下,可以使用hostip命令解密ip来判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp。如果不是 *. 或者*.baidu.jp,都是假的。
2、windows平台或IBMOS/2平台下,可以使用nslookupip命令解密ip来判断是否来自百度蜘蛛。打开命令处理器,输入nslookupxxx.xxx.xxx.xxx(IP地址)解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp,而不是 *. 或者 *.baidu.jp 是冒充的。
3、 在macos平台下,可以使用dig命令破译ip来判断是否来自百度蜘蛛。打开命令处理器,输入digxxx.xxx.xxx.xxx(IP地址)解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp,而不是 *. 或者 *.baidu.jp 是冒充的。
什么是百度蜘蛛IP
即使很多站长知道如何判断百度蜘蛛,他们仍然不断问“百度蜘蛛的IP是什么”。并且想把百度蜘蛛的IP加入白名单,只允许白名单下的IP爬取网站,避免采集等行为。
百度表示不建议站长这样做。虽然百度蜘蛛确实有一个IP池,真正的IP是在这个IP池中切换的,但是不能保证这个IP池作为一个整体不会发生变化。因此,建议站长经常阅读日志,发现恶意蜘蛛后将其加入黑名单,以保证百度的正常抓取。
同时,百度也强调,通过IP来区分百度蜘蛛的属性是荒谬的。所谓的“沙盒蜘蛛”、“断电蜘蛛”等等,从来就没有存在过。