php禁止网页抓取( 百度对robots.txt反应很到位,部分禁止目录收录下降)

优采云 发布时间: 2022-01-27 23:23

  php禁止网页抓取(

百度对robots.txt反应很到位,部分禁止目录收录下降)

  <p>

  最近在做一个网站,因为域名要备案所以就没有直接放上去,而是放到一个二级域名上,test.XXXX.com,因为是测试的域名所以不希望百度收录

robots.txt的文件内容为

User-agent:*

Disallow:/

Disallow:/go/*</p>

  原来百度收录有这个二级域名,然后查了一下网站,发现只有首页。百度不是很按照机器人和百度百科的描述吗?

  百度对robots.txt有响应,但是比较慢。它减少了对正常目录的爬取,同时减少了对禁止目录的爬取。

  原因应该是条目数减少了,正常目录收录后面需要慢慢增加。

  谷歌对robots.txt的反应非常好,被禁目录立即消失,一些正常目录收录立即上升。/comment/ 目录收录 也宕机了,仍然受到一些旧目标减少的影响。

  搜狗的爬取平衡性普遍上升,部分被禁目录收录下降。

  总结一下:谷歌似乎最懂站长的意思,其他搜索引擎比如百度只是被动受词条数量的影响

  我只知道360搜索忽略了robots协议。之前,部分服务器被360搜索引擎瘫痪。机器人被用来禁止360蜘蛛爬行。

  只能感叹国内搜索引擎离google有多远

  QQ交流群:136351212

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线