网页新闻抓取(常见搜索引擎蜘蛛名称如下：屏蔽百度蜘蛛的抓取方式研究)

优采云发布时间: 2021-09-27 21:12

　　在做网站操作，尤其是网站排名优化的时候，我们一直在思考如何引导搜索引擎蜘蛛抓取网页，收录。然而，在很多情况下，一些网站不想被搜索引擎光顾，因为他们真正对的用户群体与目标地区不同。这个时候我们如何解决这个问题？今天就跟作者小丹一起学习吧！

　　当我们看到需要阻止抓取时，大多数 SEOer 会想到 robots.txt 文件。因为在我们的认知中，机器人文件可以通过杜杰的搜索引擎有效地抓取某些页面。但是你要知道，这个方法虽然很好，但更多时候小丹认为它更适合网站未完成，以避免死链或调查期的存在。

　　如果我们只是想屏蔽某个搜索引擎的爬取，就不用负担篇幅了，用一点简单的代码就可以了。比如我们要屏蔽百度蜘蛛的爬取

　　就是这样。当然，这只是阻止百度抓取的一种方式。如果您想要任何搜索引擎，只需将百度蜘蛛替换为改变搜索引擎的蜘蛛即可。

　　常见的搜索引擎蜘蛛名称如下：

　　1、baiduspider 百度综合索引蜘蛛

　　2、Googlebot 谷歌蜘蛛

　　3、Googlebot-Image 是专门用来抓取图片的蜘蛛

　　4、Mediapartners-谷歌广告网络代码蜘蛛

　　5、Yahoo Slurp Yahoo Spider

　　6、雅虎！Slup 中国雅虎中国蜘蛛

　　7、Yahoo!-AdCrawler 雅虎广告蜘蛛

　　8、YodaoBot 网易蜘蛛

　　9、Sosospider 腾讯SOSO综合蜘蛛

　　10、搜狗蜘蛛

　　11、MSNBot Live 集成蜘蛛

　　但是，如果要屏蔽所有搜索引擎，则必须使用robot 文件：

　　说到这里，很多朋友应该明白，代码中禁止创建网页快照的命令是noarchive。因此，如果我们对搜索引擎有限制，我们可以将代码添加到网页中，直接根据我们的禁止快照；反之，无需添加任何代码，即可保证各大搜索引擎都能正常访问网站并创建快照。

0

2021-09-27

网页新闻抓取

0 个评论

要回复文章请先登录或注册