网站内容抓取工具(Google搜索结果中显示的网页或其他内容的方式实现)

优采云 发布时间: 2021-11-30 22:03

  网站内容抓取工具(Google搜索结果中显示的网页或其他内容的方式实现)

  如果您有网页或其他内容不想显示在 Google 搜索结果中,即所谓的屏蔽 Google,您可以将内容放在受密码保护的目录中,使用 robots.txt 文件,和 noindex 元标记。

  1、将内容放在受密码保护的目录中

  Googlebot 和其他信息 采集 软件无法访问这些受密码保护的目录。这是防止 Googlebot 和其他信息 采集 软件抓取您在 网站 上的内容并将其编入索引的最简单和最有效的方法。如果您使用的是 Apache Web 服务器,您可以编辑 .htaccess 文件来为服务器上的目录提供密码保护。此外,网络中有很多工具可以轻松实现此功能。

  2、使用 robots.txt 控制对服务器上文件和目录的访问

  robots.txt 文件就像一个电子“禁止侵入”标志。它会告诉 Googlebot 和其他信息 采集 软件不应抓取服务器上的哪些文件和目录。但是要使用robots.txt文件,你必须能够访问主机的根目录,作为站长应该很容易做到。

  需要注意的一点是,即使您使用robots.txt 文件拦截信息采集 软件阻止它抓取您网站 上的内容,Google 也可以找到网站 和将其添加到索引中。例如,还有另一个网站链接到您的网站,因此您的网页网址和其他公开信息可能会出现在Google 搜索结果中。

  所有常规机器人都会遵循 robots.txt 文件中的说明,但有些机器人可能会以不同的方式解释这些说明。因此,对于机密信息,谷歌仍然建议密码保护(见1).

  3、使用 noindex 元标记

  如果您在某个网页上看到 noindex 元标记,无论是否有其他网页链接到该网页,Google 都会将该网页从搜索结果中完全删除。如果网络内容当前出现在 Google 的索引中,则下次抓取该内容时将删除该内容。(为了加快删除过程,可以使用谷歌网站管理员工具中的删除网址工具)

  由于其他搜索引擎可能会以不同的方式解释此命令,因此相关网页的链接可能仍会出现在搜索结果中。另外,由于Googlebot必须抓取网页才能看到noindex标签,在极少数情况下Googlebot可能看不到noindex元标签而忽略它(例如,自从你添加了这个标签,Googlebot就没有再次抓取过这个页面) .

  下面是如何使用 noindex 元标记:

  为了防止所有机器人将 网站 中的页面编入索引,请将以下元标记添加到页面的部分:

  要允许其他漫游器为页面编制索引并仅阻止 Google 的漫游器,请在该部分中添加以下元标记:

  4、 结论

  以上是防止 Googlebot 抓取您在 网站 上的内容的三种方法。其实只要放到网上,人们(尤其是像Googlebot这样的网络爬虫机器人)是很难看到的。如果你真的有机密信息,最好不要把它放在网上。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线