搜索引擎如何抓取网页(robots.txt屏蔽搜索引擎蜘蛛的方式对来说更加隐蔽! )
优采云 发布时间: 2022-01-22 12:00搜索引擎如何抓取网页(robots.txt屏蔽搜索引擎蜘蛛的方式对来说更加隐蔽!
)
如果在正常情况下做网站,对优化会有帮助。但是有时候,屏蔽搜索引擎蜘蛛抓取网页收录,然后运行一个测试网站,里面的数据是假的,所以我们屏蔽搜索引擎吧。
1、htaccess 以更隐蔽的方式屏蔽搜索引擎蜘蛛!
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|robozilla|msnbot) [NC]
RewriteRule ^(.*)$ http://www.jqueryba.com/ [R=301,L]
2、通过 robots.txt 文件阻止
robots.txt 文件可以说是最重要的渠道(与搜索引擎建立直接对话)
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /