php禁止网页抓取( 百度对robots.txt反应很到位，部分禁止目录收录下降)

优采云发布时间: 2022-01-27 23:23

　　php禁止网页抓取(

百度对robots.txt反应很到位，部分禁止目录收录下降)

　　<p>

　　最近在做一个网站，因为域名要备案所以就没有直接放上去，而是放到一个二级域名上，test.XXXX.com,因为是测试的域名所以不希望百度收录

robots.txt的文件内容为

User-agent:*

Disallow:/

Disallow:/go/*</p>

　　原来百度收录有这个二级域名，然后查了一下网站，发现只有首页。百度不是很按照机器人和百度百科的描述吗？

　　百度对robots.txt有响应，但是比较慢。它减少了对正常目录的爬取，同时减少了对禁止目录的爬取。

　　原因应该是条目数减少了，正常目录收录后面需要慢慢增加。

　　谷歌对robots.txt的反应非常好，被禁目录立即消失，一些正常目录收录立即上升。/comment/ 目录收录也宕机了，仍然受到一些旧目标减少的影响。

　　搜狗的爬取平衡性普遍上升，部分被禁目录收录下降。

　　总结一下：谷歌似乎最懂站长的意思，其他搜索引擎比如百度只是被动受词条数量的影响

　　我只知道360搜索忽略了robots协议。之前，部分服务器被360搜索引擎瘫痪。机器人被用来禁止360蜘蛛爬行。

　　只能感叹国内搜索引擎离google有多远

　　QQ交流群：136351212

0

2022-01-27

php禁止网页抓取

0 个评论

要回复文章请先登录或注册