网站内容抓取工具(几近一个中心问题的演讲内容)

优采云发布时间: 2022-03-07 11:13

　　许多关于网站结构、爬取和收录，甚至排名的问题都可以归结为一个核心问题：搜索引擎能多容易地爬取你的网站？我们已经在最近的几次活动中讨论了这个主题，您将在下面找到我们关于这个主题的介绍和要点总结。

　　网络世界是巨大的；新内容一直在创造。Google 自身资源有限，面对几乎无穷无尽的内容网络，Googlebot 只能找到并抓取一定比例的内容。然后，我们已经爬取的内容，我们只能索引其中的一部分。

　　URL 就像网站和搜索引擎爬虫之间的桥梁：为了能够爬取您的网站内容，爬虫需要能够找到并架起这些桥梁（即查找并爬取您的 URL）。如果您的网址复杂或冗长，爬虫必须花时间反复跟踪它们；如果您的 URL 整洁并直接指向您的独特内容，则爬虫可以专注于理解您的内容，而不是爬取空白页面或被不同的 URL 引用，最终爬取相同的重复内容。

　　在上面的幻灯片中，您可以看到一些我们应该避免的反例——这些是现实世界中存在的 URL 示例（尽管出于隐私原因，它们的名称已被替换），包括被黑的 URL 和编码、伪装成的冗余参数部分 URL 路径、无限爬取空间等。您还可以找到一些提示来帮助您导航这些网络网站构建迷宫并帮助爬虫更快更好地找到您的内容，包括：

　　从 URL 中删除与用户相关的参数。URL 中那些不会影响网页内容的参数，例如会话 ID 或排序参数，可以从 URL 中删除并由 cookie 记录。通过将此信息添加到 cookie，然后 301 重定向到干净的 URL，您可以保留原创内容并减少指向相同内容的 URL 的数量。

　　控制无限空间。你的网站上是否有一个日历，上面有无数过去和未来日期的链接（每个链接都是唯一的二）？你的网址是不是在 3563 的参数后添加了 &page= ，仍然可以返回 200代码，即使根本没有那么多页面？这样的话，你的网站上出现了所谓的无限空间，这会浪费爬虫机器人和你的网站带宽。要控制无限空间，请参阅此处的一些提示。

　　阻止 Google 抓取工具抓取他们无法处理的网页。通过使用您的 robots.txt 文件，您可以防止您的登录页面、*敏*感*词*、购物车和其他抓取工具无法处理的页面被抓取。（Crawler 以刻薄和害羞着称，因此通常他们不会将商品添加到购物车或联系我们）。这样，您可以让爬虫花更多时间使用它们可以处理的内容来爬取您的网站。

　　一人一票。一个 URL，一段内容。在理想情况下，URL 和内容之间应该是一一对应的：每个 URL 对应一个唯一的内容，而每个内容只能通过唯一的 URL 访问。你越接近这个理想，你的网站就会越容易抓住和收录。如果你的内容管理系统或周口网站builder当前的网站build难以实现，你可以尝试使用rel=canonical元素来设置你想用来表示某个特定内容的URL .

　　原文：优化您的抓取和索引

0

2022-03-07

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取工具(几近一个中心问题的演讲内容)

0 个评论

发起人

AI时代内容工厂

网站内容抓取工具(几近一个中心问题的演讲内容)

0 个评论

发起人

相关问题