搜索引擎禁止的方式优化网站(如何有效阻止网页被抓取收录(1)(组图))

优采云 发布时间: 2022-01-22 15:05

  搜索引擎禁止的方式优化网站(如何有效阻止网页被抓取收录(1)(组图))

  上一篇文章分析了使用robots.txt不能防止网页被抓取的原因收录,那么,如何有效防止网页被收录,方法是使用noindex 元标记。本文将为您详细介绍。

  

  noindex 和 robots.txt

  要防止页面出现在搜索结果中,您可以在页面的 HTML 代码中收录 noindex 元标记,或在 HTTP 请求中返回“noindex”标头。下次爬虫爬取页面并看到适当的标记或标题时,它会完全阻止该页面出现在搜索结果中(无论是否有其他 网站 指向该页面的链接)。

  重要提示!

  要使 noindex 指令生效,不得使用 robots.txt 文件阻止页面。如果页面被 robots.txt 文件阻止,爬虫将永远不会看到 noindex 指令,因此该页面可能仍会出现在搜索结果中(例如,如果其他页面链接到它)。

  如果您没有服务器的 root 访问权限,您可以使用非常有用的 noindex 工具控制搜索引擎对 网站 上各个页面的访问。

  实施无索引

  您可以通过两种方式实现 noindex:使用 noindex 作为元标记,或作为 HTTP 响应标头。这两种方法是等效的,但是您可以根据您对服务器的控制程度和您使用的特定发布过程,选择对您更方便的方法。

  ◆ 标记

  为防止大多数搜索引擎网络爬虫将您的 网站 中的页面编入索引,请将以下元标记放置在相应页面的部分中:

  机器人“内容=“无索引”>

  为了防止百度网络爬虫索引页面,请放置以下元标记:

  百度蜘蛛" content="noindex">

  要防止 Google 的网络爬虫将页面编入索引,请放置以下元标记:

  googlebot" 内容="noindex">

  阻止所有蜘蛛爬取页面写成:

  机器人“内容=“无索引”>

  请注意,某些搜索引擎网络爬虫可能会以不同方式解释 noindex 指令,因此您的页面可能仍会出现在其他搜索引擎结果中。

  ◆帮助搜索引擎发现你的 noindex 元标记

  元标记仅在抓取您的页面后可见。如果您的页面仍然显示在搜索结果中,可能是因为自您添加标签以来搜索引擎尚未抓取您的 网站。您可以主动将您的网页提交给搜索引擎,让爬虫重新抓取您的网页。此外,您的 robots.txt 文件可能会阻止抓取工具访问该 URL,因此无法看到此标记。要允许搜索引擎访问您的网页,您必须修改 robots.txt 文件。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线