网页新闻抓取(常见搜索引擎蜘蛛名称如下:屏蔽百度蜘蛛的抓取方式研究)

优采云 发布时间: 2021-09-27 21:12

  网页新闻抓取(常见搜索引擎蜘蛛名称如下:屏蔽百度蜘蛛的抓取方式研究)

  在做网站操作,尤其是网站排名优化的时候,我们一直在思考如何引导搜索引擎蜘蛛抓取网页,收录。然而,在很多情况下,一些网站不想被搜索引擎光顾,因为他们真正对的用户群体与目标地区不同。这个时候我们如何解决这个问题?今天就跟作者小丹一起学习吧!

  当我们看到需要阻止抓取时,大多数 SEOer 会想到 robots.txt 文件。因为在我们的认知中,机器人文件可以通过杜杰的搜索引擎有效地抓取某些页面。但是你要知道,这个方法虽然很好,但更多时候小丹认为它更适合网站未完成,以避免死链或调查期的存在。

  如果我们只是想屏蔽某个搜索引擎的爬取,就不用负担篇幅了,用一点简单的代码就可以了。比如我们要屏蔽百度蜘蛛的爬取

  就是这样。当然,这只是阻止百度抓取的一种方式。如果您想要任何搜索引擎,只需将百度蜘蛛替换为改变搜索引擎的蜘蛛即可。

  常见的搜索引擎蜘蛛名称如下:

  1、baiduspider 百度综合索引蜘蛛

  2、Googlebot 谷歌蜘蛛

  3、Googlebot-Image 是专门用来抓取图片的蜘蛛

  4、Mediapartners-谷歌广告网络代码蜘蛛

  5、Yahoo Slurp Yahoo Spider

  6、雅虎!Slup 中国雅虎中国蜘蛛

  7、Yahoo!-AdCrawler 雅虎广告蜘蛛

  8、YodaoBot 网易蜘蛛

  9、Sosospider 腾讯SOSO综合蜘蛛

  10、搜狗蜘蛛

  11、MSNBot Live 集成蜘蛛

  但是,如果要屏蔽所有搜索引擎,则必须使用robot 文件:

  说到这里,很多朋友应该明白,代码中禁止创建网页快照的命令是noarchive。因此,如果我们对搜索引擎有限制,我们可以将代码添加到网页中,直接根据我们的禁止快照;反之,无需添加任何代码,即可保证各大搜索引擎都能正常访问网站并创建快照。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线