搜索引擎禁止的方式优化网站(给出一个能有效禁止百度等搜索引擎收录的解决方案方法 )

优采云 发布时间: 2021-12-26 12:03

  搜索引擎禁止的方式优化网站(给出一个能有效禁止百度等搜索引擎收录的解决方案方法

)

  注意:虽然建站的目的大部分是为了优化搜索引擎排名,实现网络营销,但在特殊情况下,还是会有“不希望被搜索引擎收录”的需要,比如创建一个内容和主站由于某种原因几乎相同的副站,但由于内容高度相似,百度的关键词部分排名给了副站,影响了主站的排名。这时候就需要切断百度的收录。这里有一个可以有效禁止百度等搜索引擎收录的解决方案。

  

  一、Robots.txt 只能禁止抓取,不能收录

  很多人认为在robots.txt中禁止百度蜘蛛爬行就相当于禁止收录。这是一个严重的误解。

  

  二、 通过Nginx判断user_agent禁止访问百度等搜索引擎,实现禁止收录

  既然不能直接禁止爬行,那就干脆禁止访问百度蜘蛛等搜索引擎。这个想法是确定user_agent。如果是百度蜘蛛或者谷歌机器人等搜索引擎的user_agent,返回403或者404,这样百度等搜索引擎会认为这个网站打不开或者不存在,所以自然不会被收录。

  其实之前我写过一篇类似的文章《Apache/Nginx/PHP 屏蔽UA爬虫的方法》,大家可以参考一下。

  这里Nginx配置代码如下:

  if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")

{

return 403;

}

  我用curl模拟搜索引擎爬行,测试了上面代码的有效性,在很多项目实践中验证了这个方法的可行性,实现了完全禁止百度收录!

  #模拟百度搜索引擎

curl --user-agent "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" http://**.**.com

#模拟谷歌

curl --user-agent "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" http://**.**.com

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线