在线抓取网页(几近一个的抓取与收录、收录的演讲内容以及要点概括)

优采云 发布时间: 2021-10-02 04:13

  在线抓取网页(几近一个的抓取与收录、收录的演讲内容以及要点概括)

  许多关于网站的结构、爬取和收录,甚至排名的问题都可以归结为一个核心问题,那就是:搜索引擎爬取你的网站有多容易?我们在最近的几个事件中讨论了这个话题。下面你将看到我们关于这个问题的演讲内容和主要观点的总结。

  网络世界是巨大的;每时每刻都在产生新的内容。谷歌自己的资源是有限的。当面对几乎无穷无尽的网络内容时,Googlebot 只能查找和抓取一定比例的内容。然后,我们只能索引我们抓取的部分内容。

  URL就像网站和搜索引擎爬虫之间的桥梁:为了能够抓取你的内容网站,爬虫需要能够找到并跨越这些桥梁(即找到并抓取你的URLs )。如果你的 URL 很复杂或者很长,爬虫就不得不花时间反复跟踪这些 URL;如果你的 URL 是常规的并且直接指向你的独特内容,那么爬虫可以专注于理解你的内容,而不是仅仅抓取空网页或被不同的 URL 引导,最终抓取的是相同的重复内容。

  在上面的幻灯片中,您可以看到一些我们应该避免的反例——这些都是现实中存在的 URL 的示例(尽管出于隐私原因,它们的名称已被替换),这些示例包括被黑的 URL 和编码、伪装成一部分的冗余参数URL 路径、无限爬取空间等,您还可以找到一些建议,帮助您理顺这些 URL 迷宫,帮助爬虫更快更好地找到您的内容,包括:

  1)去除URL中的用户相关参数

  URL 中不影响网页内容的参数——例如会话 ID 或排序参数——可以从 URL 中删除并由 cookie 记录。通过将此信息添加到 cookie,然后 301 重定向到“干净”的 URL,您可以保留原创内容并减少指向相同内容的 URL 数量。

  控制无限空间

  你的网站上有日历吗,上面的链接指向无数过去和未来的日期(每个链接地址都是唯一的二)?你的网页地址是不是加了一个&page = 3563参数后,还可以返回200个代码,即使根本没有那么多页面?如果这样的话,你的网站上就会出现所谓的“无限空间”。这种情况会浪费爬虫机器人和你的带宽网站.如何控制“无限空间”,请参考这里的一些技巧。

  2)防止 Google 抓取工具抓取它们无法处理的页面

  通过使用您的 robots.txt 文件,您可以防止您的登录页面、联系信息、购物车和其他爬虫无法处理的页面被抓取。(爬行动物以吝啬和害羞着称,所以一般不会“添加商品到购物车”或“联系我们”)。这样,你可以让爬虫花更多的时间在你的网站上爬取他们能处理的东西。

  一人一票。一个网址,一段内容

  在理想的世界中,URL 和内容是一一对应的:每个 URL 对应一个唯一的内容,每个内容只能通过唯一的 URL 访问。越接近这种理想情况,您的 网站 就越容易被捕获和 收录。如果您的内容管理系统或当前的网站 建立难以实施,您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线