网页信息抓取软件(告诉搜索引擎如何索引您的网站机器人元指令(或“元标签”)

优采云 发布时间: 2022-02-20 02:01

  网页信息抓取软件(告诉搜索引擎如何索引您的网站机器人元指令(或“元标签”)

  告诉搜索引擎如何索引您的 网站bots 元指令

  元指令(或“元标记”)是您可以向搜索引擎提供有关您希望如何处理您的网页的说明。

  您可以告诉搜索引擎爬虫“不要在搜索结果中将此页面编入索引”或“不要将任何链接资产传递给任何页面链接”。这些指令通过 HTML 页面中的 Robots 元标记(最常用)或 HTTP 标头中的 X-Robots-Tag 执行。

  机器人元标记

  机器人元标记可用于网页的 HTML。它可以排除所有或特定的搜索引擎。以下是最常见的元指令以及您可以应用它们的情况。

  index/noindex 告诉引擎是否应该抓取页面并将其保存在搜索引擎的索引中以供检索。如果您选择使用“noindex”,则意味着您要从搜索结果中排除页面。默认情况下,搜索引擎假定它们可以索引所有页面,因此无需使用“index”值。

  follow/nofollow 告诉搜索引擎是否应该关注页面上的链接。“关注”会导致机器人关注您页面上的链接并将链接权益传递给这些 URL。或者,如果您选择使用“nofollow”,搜索引擎将不会关注或将任何链接兴趣传递给页面上的链接。默认情况下,假定所有页面都具有“关注”属性。

  noarchive 用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将保留其已编入索引的所有页面的可见副本,搜索者可以通过搜索结果中的缓存链接访问这些页面。

  以下是 metabot noindex、nofollow 标签的示例:

  ...

  此示例将所有搜索引擎排除在索引页面和跟踪页面的任何链接之外。如果要排除多个爬虫,例如 googlebot 和 bing,可以使用多个 bot 排除标记。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线