网站内容抓取工具(几近一个中心问题的演讲内容)

优采云 发布时间: 2022-03-07 11:13

  网站内容抓取工具(几近一个中心问题的演讲内容)

  许多关于网站结构、爬取和收录,甚至排名的问题都可以归结为一个核心问题:搜索引擎能多容易地爬取你的网站?我们已经在最近的几次活动中讨论了这个主题,您将在下面找到我们关于这个主题的介绍和要点总结。

  网络世界是巨大的;新内容一直在创造。Google 自身资源有限,面对几乎无穷无尽的内容网络,Googlebot 只能找到并抓取一定比例的内容。然后,我们已经爬取的内容,我们只能索引其中的一部分。

  URL 就像 网站 和搜索引擎爬虫之间的桥梁:为了能够爬取您的 网站 内容,爬虫需要能够找到并架起这些桥梁(即查找并爬取您的 URL)。如果您的网址复杂或冗长,爬虫必须花时间反复跟踪它们;如果您的 URL 整洁并直接指向您的独特内容,则爬虫可以专注于理解您的内容,而不是爬取空白页面或被不同的 URL 引用,最终爬取相同的重复内容。

  在上面的幻灯片中,您可以看到一些我们应该避免的反例——这些是现实世界中存在的 URL 示例(尽管出于隐私原因,它们的名称已被替换),包括被黑的 URL 和编码、伪装成的冗余参数部分 URL 路径、无限爬取空间等。您还可以找到一些提示来帮助您导航这些网络 网站 构建迷宫并帮助爬虫更快更好地找到您的内容,包括:

  从 URL 中删除与用户相关的参数。URL 中那些不会影响网页内容的参数,例如会话 ID 或排序参数,可以从 URL 中删除并由 cookie 记录。通过将此信息添加到 cookie,然后 301 重定向到干净的 URL,您可以保留原创内容并减少指向相同内容的 URL 的数量。

  控制无限空间。你的 网站 上是否有一个日历,上面有无数过去和未来日期的链接(每个链接都是唯一的 二)?你的网址是不是在 3563 的参数后添加了 &page= ,仍然可以返回 200代码,即使根本没有那么多页面?这样的话,你的网站上出现了所谓的无限空间,这会浪费爬虫机器人和你的网站带宽。要控制无限空间,请参阅此处的一些提示。

  阻止 Google 抓取工具抓取他们无法处理的网页。通过使用您的 robots.txt 文件,您可以防止您的登录页面、*敏*感*词*、购物车和其他抓取工具无法处理的页面被抓取。(Crawler 以刻薄和害羞着称,因此通常他们不会将商品添加到购物车或联系我们)。这样,您可以让爬虫花更多时间使用它们可以处理的内容来爬取您的 网站。

  一人一票。一个 URL,一段内容。在理想情况下,URL 和内容之间应该是一一对应的:每个 URL 对应一个唯一的内容,而每个内容只能通过唯一的 URL 访问。你越接近这个理想,你的网站就会越容易抓住和收录。如果你的内容管理系统或周口网站builder当前的网站build难以实现,你可以尝试使用rel=canonical元素来设置你想用来表示某个特定内容的URL .

  原文:优化您的抓取和索引

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线