百度网页关键字抓取(百度是怎么计算分配流量的呢？站点抓取流量暴增的原因)

优采云发布时间: 2021-11-15 03:16

　　蜘蛛的网站爬行次数突然增加，往往会给网站带来很大的困扰。他们正在寻找将百度蜘蛛IP列入白名单的平台，但实际上百度蜘蛛IP会随时更改，所以我不敢发布，担心网站所有者。设置不影响及时抓取效果。百度如何计算和分配抓取流量？网站抓取流量激增的原因有哪些？

　　一般来说，百度蜘蛛会根据网站大小、历史上每天生成的新链接数网站、被抓取网页的综合质量得分等综合计算抓取流量，同时兼顾站长的抓取网站频率工具中设置的最大可接受爬网值。

　　从目前追踪到的爬虫流量突然增加的情况来看，原因可以分为以下几类：

　　1. 百度蜘蛛发现站点中有很多JS代码，调用了大量的资源来解析和获取JS代码

　　2、百度其他部门（如业务、图片等）的蜘蛛在爬，但流量控制不好

　　3、已经爬过的链接评分不好，垃圾太多，导致蜘蛛重新爬

　　4. 网站被攻击，有人模仿百度爬虫（见下面关于百度蜘蛛）

　　如果站长已经排除了自己的问题和假冒问题，并确认百度蜘蛛抓取了过多的流量，您可以通过百度反馈中心()反馈。注意：请务必提供捕获日志的详细屏幕截图。

　　关于百度蜘蛛

　　如何正确识别百度蜘蛛手机UA

　　新版手机UA：

　　Mozilla/5.0 (Linux;u;Android4.2.2;zh-cn;)

　　AppleWebKit/534.46 (KHTML,like Gecko)

　　版本/5.1 Mobile Safari/10600.6.3（兼容；百度蜘蛛/2.0；+html）

　　PC ua:Mozilla/5.0(兼容;百度蜘蛛/2.0;+)

　　请注意之前用“+”标识的网站！需要修改识别方式，新的正确识别百度蜘蛛手机UA的方法如下：

　　1.通过关键词“Android”或“Mobile”识别，判断为移动访问或爬取。

　　2.通过关键词"Baiduspider/2.0"判断为百度爬虫。

　　还需要强调的是，对于机器人的封禁，如果封禁代理是百度蜘蛛，PC端和手机端都会生效。即无论是PC还是手机百度蜘蛛，都不会抓取被拦截的对象。强调这一点的原因是一些代码适配网站（相同的url，PC ua打开时是PC页面，移动UA打开时是移动页面），我想设置robots代理禁止只允许移动Baiduspider的目的爬虫，但是因为PC端和手机端百度蜘蛛的代理是百度蜘蛛，所以这种方式是非常不可取的。

　　如何识别百度蜘蛛

　　百度蜘蛛是站长的客人，但也有站长会问这样的问题：

　　我们如何判断那些疯狂抓我们网站的蜘蛛是否属于百度？

　　其实站长可以通过DNS反查IP来判断蜘蛛是否来自百度搜索引擎。不同平台的验证方法也不同。比如linux/windows/os三个平台下的验证方法如下：

　　1、在linux平台下，可以使用hostip命令解密ip来判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp。如果不是 *. 或者*.baidu.jp，都是假的。

　　2、windows平台或IBMOS/2平台下，可以使用nslookupip命令解密ip来判断是否来自百度蜘蛛。打开命令处理器，输入nslookupxxx.xxx.xxx.xxx（IP地址）解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp，而不是 *. 或者 *.baidu.jp 是冒充的。

　　3、在macos平台下，可以使用dig命令破译ip来判断是否来自百度蜘蛛。打开命令处理器，输入digxxx.xxx.xxx.xxx（IP地址）解析ip判断是否来自百度蜘蛛。百度蜘蛛的主机名以*格式命名。或 *.baidu.jp，而不是 *. 或者 *.baidu.jp 是冒充的。

　　什么是百度蜘蛛IP

　　即使很多站长知道如何判断百度蜘蛛，他们仍然不断问“百度蜘蛛的IP是什么”。并且想把百度蜘蛛的IP加入白名单，只允许白名单下的IP爬取网站，避免采集等行为。

　　百度表示不建议站长这样做。虽然百度蜘蛛确实有一个IP池，真正的IP是在这个IP池中切换的，但是不能保证这个IP池作为一个整体不会发生变化。因此，建议站长经常阅读日志，发现恶意蜘蛛后将其加入黑名单，以保证百度的正常抓取。

　　同时，百度也强调，通过IP来区分百度蜘蛛的属性是荒谬的。所谓的“沙盒蜘蛛”、“断电蜘蛛”等等，从来就没有存在过。

0

2021-11-15

百度网页关键字抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度网页关键字抓取(百度是怎么计算分配流量的呢？站点抓取流量暴增的原因)

0 个评论

发起人