搜索引擎禁止的方式优化网站(屏蔽主流搜索引擎爬虫(蜘蛛)/索引/收录网页的几种思路)
优采云 发布时间: 2022-02-13 01:17搜索引擎禁止的方式优化网站(屏蔽主流搜索引擎爬虫(蜘蛛)/索引/收录网页的几种思路)
网站构建完成,当然希望网页能被搜索引擎搜索到的越多越好收录,但有时我们也遇到网站不需要被搜索引擎搜索到收录案例。
比如要启用一个新域名作为镜像网站,主要用于PPC推广。这时候就需要想办法防止搜索引擎蜘蛛爬取我们镜像网站的所有网页并对其进行索引。因为如果镜像网站也被搜索引擎收录使用,很可能会影响官网在搜索引擎中的权重,这绝对是我们不希望看到的结果。
下面列出了几种阻止主流搜索引擎爬虫(蜘蛛)爬取/索引/收录网页的思路。注:全站屏蔽,尽可能屏蔽所有主流搜索引擎的爬虫(蜘蛛)。
1、通过 robots.txt 文件阻止
可以说 robots.txt 文件是最重要的渠道(与搜索引擎建立直接对话)。通过分析自己博客的服务器日志文件,我给出以下建议(同时欢迎网友补充):
用户代理:百度蜘蛛
不允许: /
用户代理:Googlebot
不允许: /
用户代理:Googlebot-Mobile
不允许: /
用户代理:Googlebot-Image
不允许:/
用户代理:Mediapartners-Google
不允许: /
用户代理:Adsbot-Google
不允许: /
用户代理:Feedfetcher-Google
不允许: /
用户代理:Yahoo!啜饮
不允许: /
用户代理:Yahoo!啜饮中国
不允许: /
用户代理:Yahoo!-AdCrawler
不允许: /
用户代理:有道机器人
不允许: /
用户代理:Sosospider
不允许: /
用户代理:搜狗蜘蛛
不允许: /
用户代理:搜狗网络蜘蛛
不允许: /
用户代理:MSNBot
不允许: /
用户代理:ia_archiver
不允许: /
用户代理:番茄机器人
不允许: /
用户代理: *
不允许: /
2、按元标记阻止
在所有网页头文件中,添加以下语句:
3、通过服务器设置(例如:Linux/nginx)配置文件
直接过滤蜘蛛/机器人的IP段。
注意:一二招只对“君子”有效,防止“小人”使用三招(“君子”和“小人”指遵守和不遵守robots.txt的人)协议分别为spider/robots),所以网站上线后,需要不断的跟踪分析日志,过滤掉这些badbots的ip,然后进行屏蔽。
这是一个badbot ips的数据库:
4、通过搜索引擎提供的站长工具删除网页快照
例如,有时百度不严格遵守 robots.txt 协议,您可以通过百度提供的“网页投诉”门户删除网页快照。百度网络投诉中心: