php登录抓取网页指定内容(Google如何解析元标记和各种各样提供的信息(组图))
优采云 发布时间: 2022-02-15 18:20php登录抓取网页指定内容(Google如何解析元标记和各种各样提供的信息(组图))
如果您可以编写和维护准确的元标记(例如,搜索机器人的描述性标题和信息),Google 可以更准确地抓取、索引并在搜索结果中显示您的 网站。元标记向各种客户端提供信息,例如浏览器和搜索引擎。请记住,每个客户端可能只解析对该客户端有用的元标记并忽略
如果您可以编写和维护准确的元标记(例如,搜索机器人的描述性标题和信息),Google 可以更准确地抓取、索引并在搜索结果中显示您的 网站。元标记向各种客户端提供信息,例如浏览器和搜索引擎。请记住,每个客户端只能解析对该客户端有用的元标记,而忽略其他元标记(尽管它们有其他用途)。
以下是 Google 如何解析以下 HTML 页面的元标记:
此标记提供当前页面的简短描述。在许多情况下,此描述将作为页面片段出现在 Google 的搜索结果中。有关详细信息,请参阅我们帮助中心的博客 文章“使用更好的元描述改进页面摘要”和 文章“如何更改 网站 的标题和描述”。虽然描述元标记是可选的并且不会影响您的排名,但良好的描述可以产生更好的页面摘要,这反过来可以帮助提高我们的搜索结果的质量和您页面的访问者数量。
页面标题
标题标签在技术上不是元标签,它通常与“描述”标签一起使用。这个标签的内容(即标题)一般会显示在搜索结果中(当然,在用户使用浏览器浏览页面或查看书签时也可以看到页面标题)。我们的博客 文章“对于访问者,还是对于搜索引擎?” 特别是“充分利用您的页面标题”有更多关于标题标签的信息。
这些元标记控制搜索引擎如何抓取和索引页面。“robots”元标记指定的规则适用于所有搜索引擎,“googlebot”元标记指定的规则仅适用于 Google。谷歌理解以下值(指定多个值时,用逗号分隔):
noindex:防止页面被索引(请参阅“使用元标记阻止或删除页面”)
nofollow:不要通过指向当前页面的链接寻找和抓取新页面(另请参阅“使用元标记阻止或删除页面”)
nosnippet:在搜索结果中显示当前页面时不显示页面片段(请参阅“防止或删除页面片段”)
noodp:在生成此页面的标题或页面摘要时,不要使用 Open Directory Project (aka) 中的文本(请参阅“如何更改 网站 的标题和描述?”)
noarchive:在搜索结果中显示此页面时不显示“页面快照”链接(请参阅“阻止或删除缓存的网页”)
不可用_after:[日期]:在指定日期和时间之后从搜索结果中删除此页面(请参阅“机器人排除协议:现在更灵活”)
当您完全省略此标记或指定 c 时,默认规则为“index, follow”。在“使用机器人元标记”中有更多关于“机器人”元标记的信息。请注意,您现在还可以通过页面标题中的“X-Robots-tag”HTTP 标头指令指定此信息。这特别有用,尤其是当您想要微调非 HTML 文件(如 PDF、图像或其他类型)的抓取和索引时。
当我们发现页面内容不是以用户可能想要阅读的语言编写时,我们通常会在搜索结果中提供一个链接来自动翻译您的页面。一般来说,这使您有机会向更广泛的用户群提供独特且引人入胜的内容。但是,在某些情况下,您可能不希望您的网页被翻译。使用此元标记,您可以表明您不希望 Google 提供链接来翻译此页面。此元标记通常不会影响页面对任何特定语言的排名。有关详细信息,请参阅“谷歌翻译常见问题解答”。
这是一个 Google网站Admin Tool 特定的元标记,用于在您的 网站 高级页面上验证 网站 的 网站 管理员所有者(另一种方式验证是上传 HTML 文件)。“c 如何通过向 网站 主页添加元标记来验证 网站?” 你为这个标签设置
此元标记定义页面的内容类型和字符集。使用此元标记时,内容属性的值必须用引号引起来;否则可能会误解字符属性。如果您决定使用此元标记,则不用说您应该确保您的内容实际上使用了指定的字符集。“谷歌的网络作者统计”有一些关于使用这个元标记的有趣数据。
此元标记在一定时间后将用户引导至新 URL,有时用作一种简单的重定向形式。并非所有浏览器都支持这种重定向。它也可能使用户感到困惑。如果您需要更改搜索引擎结果中显示的页面的 URL,我们建议您使用服务器端 301 重定向。此外,W3C 的“网页可读性提示和故障排除指南2.0”将其列为应弃用的标记。
(X)HTML 和大写
Google 可以读取 HTML 样式的元标记和 XHTML 样式的元标记(无论页面的编码如何)。此外,元标记的大小写通常无关紧要——我们将 和 视为相同。但是,“verify-v1”元标记是一个例外,它区分大小写。
revisit-after网站map 的 lastmod 和 changefreq 标记
有时,网站管理员不必要地收录“revisit-after”标签以加快搜索引擎的抓取速度,不幸的是,这个元标签大多被忽略了。如果您想让搜索引擎知道您的页面更改,您可以提交 XML 格式的 网站map。在此文件中,您可以指定上次修改 网站 的日期 (lastmod) 以及 URL 页面的更改频率 (changefreq)。