vb抓取网页内容(指令对索引编制或内容显示无任何限制(图))
优采云 发布时间: 2022-01-19 20:07vb抓取网页内容(指令对索引编制或内容显示无任何限制(图))
操作说明
全部
对索引或内容显示没有限制。该指令是默认指令,因此显式列出它没有任何效果。
无索引
不要在搜索结果中显示此网页、媒体或资源。如果您未指定此指令,则此页面、媒体或资产可能会被编入索引并显示在搜索结果中。
不关注
不要点击此页面上的链接。如果您未指定此指令,Google 可能会使用此页面上的链接来发现链接页面。
没有任何
相当于noindex,nofollow。
无档案
不要在搜索结果中显示缓存的链接。如果您不指定此指令,Google 可能会生成一个缓存页面,用户可以通过搜索结果访问该页面。
无摘要
不要在搜索结果中显示页面的文本片段或视频预览。如果有静止图像缩略图,仍然可以显示静止图像缩略图,这可以提供更好的用户体验。这适用于所有形式的搜索结果,包括 Google Web Search、Google 图片和 Google Discover。
如果您未指定此指令,Google 可能会根据页面上的信息生成文本片段和视频预览。
最大片段:[数量]
您最多只能使用 [number] 个字符作为此搜索结果的文本摘要。(请注意,该 URL 可能会在搜索结果页面中显示为多个搜索结果)。这不会影响图片或视频预览。此限制适用于所有形式的搜索结果,例如 Google Web Search、Google 图片、Google Discover 和 Google Assistant。但是,如果发布者已单独授予使用内容的权限,则此限制不适用。例如,如果发布商以页内结构化数据的形式提供内容,或者与 Google 签订了许可协议,则此设置不会阻止那些更具体的允许使用。如果未指定可解析的 [number],则忽略此指令。
如果您不指定此指令,Google 将选择摘要长度。
特殊价值:
例如:
防止片段出现在搜索结果中:
摘要限制为 20 个字符:
表示摘要没有字数限制:
最大图像预览:[设置]
设置此页面在搜索结果中的最大图像预览大小。
如果您不指定 max-image-preview 指令,Google 可能会以默认大小显示图像预览。
接受的 [设置] 值:
这适用于所有形式的搜索结果,例如 Google Web Search、Google 图片、Google Discover 和 Google Assistant。但是,如果发布者已单独授予使用内容的权限,则此限制不适用。例如,如果发布商以页内结构化数据的形式提供内容(例如 AMP 版本和规范版本的 文章),或者与 Google 签订了许可协议,则此设置不会阻止那些更具体的允许使用.
如果您不希望 Google 搜索或 Google 探索在显示其 文章 AMP 页面和规范版本时使用较大的缩略图,请将 max-image-preview 的值指定为标准或无。
例子:
最大视频预览:[数量]
此页面上的视频在搜索结果中的最大视频片段长度必须为 [number] 秒。
如果您不指定 max-video-preview 指令,Google 可能会在搜索结果中显示视频片段,并由 Google 决定预览内容的时间。
特殊价值:
这适用于所有形式的搜索结果,例如 Google Web Search、Google 图片、Google Video、Google Discover 和 Google Assistant。如果未指定可解析的 [number],则忽略此指令。
例子:
不翻译
不要在搜索结果中提供此页面的翻译。如果您未指定此指令,Google 可能会以搜索查询的语言以外的语言提供搜索结果标题链接和搜索结果的翻译版本。如果用户点击翻译后的标题链接,用户和网页之间的进一步交互将通过谷歌翻译进行,谷歌翻译会自动翻译用户随后访问的链接。
无图像索引
不要索引此页面上的图像。如果您不指定此值,则页面上的图像可能会被索引并显示在搜索结果中。
不可用_之后:[日期/时间]
不要在指定日期/时间之后在搜索结果中显示此页面。日期/时间必须以广泛接受的格式指定,包括但不限于 RFC 822、RFC 850 和 ISO 8601。如果没有指定有效的日期/时间,该指令将被忽略。默认情况下,内容没有过期日期。
如果您不指定此指令,则该页面可能会无限期地出现在搜索结果中。
Googlebot 会在指定日期和时间后显着减慢 URL 的抓取速度。
例子:
注意:nosnippet 表示:不要在此页面的搜索结果中显示片段。
组合索引指令和内容显示指令
您可以组合以逗号分隔的多个机器人元标记指令,以创建具有多个指令的单个命令。下面是一个机器人元标记示例,它指示网络爬虫不要索引页面或爬取页面上的任何链接:
以下示例将文本摘要长度限制为 20 个字符并允许大图像预览:
如果您为每个工具指定多个具有不同指令的爬虫,搜索引擎将合并所有否定指令。例如:
Googlebot 会抓取收录这些元标记的页面,就好像它们没有 noindex、nofollow 指令一样。
指定不应使用 HTML 页面的哪些部分来生成片段
这可以在 HTML 元素级别使用 span、div 和 section 元素的 data-nosnippetHTML 属性来实现。data-nosnippet 被视为布尔属性。与所有布尔属性一样,任何指定的值都将被忽略。
<p>This text can be shown in a snippet
and this part would not be shown.
not in snippet
also not in snippet
also not in snippet
some text
some text
</p>
Google 通常会渲染网页以对其编制索引,但不能保证它会渲染。因此,可以在渲染之前和之后提取 data-nosnippet。为避免渲染不确定性,请勿通过 JavaScript 添加或删除现有节点的 data-nosnippet 属性。通过 JavaScript 添加 DOM 元素时,在最初将元素添加到网页的 DOM 时,根据需要收录 data-nosnippet 属性。如果使用自定义元素并且您需要使用 data-nosnippet,请通过 div、span 或 section 元素包装或呈现它们。