网页新闻抓取(常见搜索引擎蜘蛛名称如下:屏蔽百度蜘蛛的抓取方式研究)
优采云 发布时间: 2021-09-27 21:12网页新闻抓取(常见搜索引擎蜘蛛名称如下:屏蔽百度蜘蛛的抓取方式研究)
在做网站操作,尤其是网站排名优化的时候,我们一直在思考如何引导搜索引擎蜘蛛抓取网页,收录。然而,在很多情况下,一些网站不想被搜索引擎光顾,因为他们真正对的用户群体与目标地区不同。这个时候我们如何解决这个问题?今天就跟作者小丹一起学习吧!
当我们看到需要阻止抓取时,大多数 SEOer 会想到 robots.txt 文件。因为在我们的认知中,机器人文件可以通过杜杰的搜索引擎有效地抓取某些页面。但是你要知道,这个方法虽然很好,但更多时候小丹认为它更适合网站未完成,以避免死链或调查期的存在。
如果我们只是想屏蔽某个搜索引擎的爬取,就不用负担篇幅了,用一点简单的代码就可以了。比如我们要屏蔽百度蜘蛛的爬取
就是这样。当然,这只是阻止百度抓取的一种方式。如果您想要任何搜索引擎,只需将百度蜘蛛替换为改变搜索引擎的蜘蛛即可。
常见的搜索引擎蜘蛛名称如下:
1、baiduspider 百度综合索引蜘蛛
2、Googlebot 谷歌蜘蛛
3、Googlebot-Image 是专门用来抓取图片的蜘蛛
4、Mediapartners-谷歌广告网络代码蜘蛛
5、Yahoo Slurp Yahoo Spider
6、雅虎!Slup 中国雅虎中国蜘蛛
7、Yahoo!-AdCrawler 雅虎广告蜘蛛
8、YodaoBot 网易蜘蛛
9、Sosospider 腾讯SOSO综合蜘蛛
10、搜狗蜘蛛
11、MSNBot Live 集成蜘蛛
但是,如果要屏蔽所有搜索引擎,则必须使用robot 文件:
说到这里,很多朋友应该明白,代码中禁止创建网页快照的命令是noarchive。因此,如果我们对搜索引擎有限制,我们可以将代码添加到网页中,直接根据我们的禁止快照;反之,无需添加任何代码,即可保证各大搜索引擎都能正常访问网站并创建快照。