php禁止网页抓取( 百度对robots.txt反应很到位,部分禁止目录收录下降)
优采云 发布时间: 2022-01-27 23:23php禁止网页抓取(
百度对robots.txt反应很到位,部分禁止目录收录下降)
最近在做一个网站,因为域名要备案所以就没有直接放上去,而是放到一个二级域名上,test.XXXX.com,因为是测试的域名所以不希望百度收录
robots.txt的文件内容为
User-agent:*
Disallow:/
Disallow:/go/*</p>
原来百度收录有这个二级域名,然后查了一下网站,发现只有首页。百度不是很按照机器人和百度百科的描述吗?
百度对robots.txt有响应,但是比较慢。它减少了对正常目录的爬取,同时减少了对禁止目录的爬取。
原因应该是条目数减少了,正常目录收录后面需要慢慢增加。
谷歌对robots.txt的反应非常好,被禁目录立即消失,一些正常目录收录立即上升。/comment/ 目录收录 也宕机了,仍然受到一些旧目标减少的影响。
搜狗的爬取平衡性普遍上升,部分被禁目录收录下降。
总结一下:谷歌似乎最懂站长的意思,其他搜索引擎比如百度只是被动受词条数量的影响
我只知道360搜索忽略了robots协议。之前,部分服务器被360搜索引擎瘫痪。机器人被用来禁止360蜘蛛爬行。
只能感叹国内搜索引擎离google有多远
QQ交流群:136351212