在线抓取网页(几近一个的抓取与收录、收录的演讲内容以及要点概括)

优采云发布时间: 2021-10-02 04:13

　　许多关于网站的结构、爬取和收录，甚至排名的问题都可以归结为一个核心问题，那就是：搜索引擎爬取你的网站有多容易？我们在最近的几个事件中讨论了这个话题。下面你将看到我们关于这个问题的演讲内容和主要观点的总结。

　　网络世界是巨大的；每时每刻都在产生新的内容。谷歌自己的资源是有限的。当面对几乎无穷无尽的网络内容时，Googlebot 只能查找和抓取一定比例的内容。然后，我们只能索引我们抓取的部分内容。

　　URL就像网站和搜索引擎爬虫之间的桥梁：为了能够抓取你的内容网站，爬虫需要能够找到并跨越这些桥梁（即找到并抓取你的URLs ）。如果你的 URL 很复杂或者很长，爬虫就不得不花时间反复跟踪这些 URL；如果你的 URL 是常规的并且直接指向你的独特内容，那么爬虫可以专注于理解你的内容，而不是仅仅抓取空网页或被不同的 URL 引导，最终抓取的是相同的重复内容。

　　在上面的幻灯片中，您可以看到一些我们应该避免的反例——这些都是现实中存在的 URL 的示例（尽管出于隐私原因，它们的名称已被替换），这些示例包括被黑的 URL 和编码、伪装成一部分的冗余参数URL 路径、无限爬取空间等，您还可以找到一些建议，帮助您理顺这些 URL 迷宫，帮助爬虫更快更好地找到您的内容，包括：

　　1）去除URL中的用户相关参数

　　URL 中不影响网页内容的参数——例如会话 ID 或排序参数——可以从 URL 中删除并由 cookie 记录。通过将此信息添加到 cookie，然后 301 重定向到“干净”的 URL，您可以保留原创内容并减少指向相同内容的 URL 数量。

　　控制无限空间

　　你的网站上有日历吗，上面的链接指向无数过去和未来的日期（每个链接地址都是唯一的二）？你的网页地址是不是加了一个&page = 3563参数后，还可以返回200个代码，即使根本没有那么多页面？如果这样的话，你的网站上就会出现所谓的“无限空间”。这种情况会浪费爬虫机器人和你的带宽网站.如何控制“无限空间”，请参考这里的一些技巧。

　　2）防止 Google 抓取工具抓取它们无法处理的页面

　　通过使用您的 robots.txt 文件，您可以防止您的登录页面、联系信息、购物车和其他爬虫无法处理的页面被抓取。（爬行动物以吝啬和害羞着称，所以一般不会“添加商品到购物车”或“联系我们”）。这样，你可以让爬虫花更多的时间在你的网站上爬取他们能处理的东西。

　　一人一票。一个网址，一段内容

　　在理想的世界中，URL 和内容是一一对应的：每个 URL 对应一个唯一的内容，每个内容只能通过唯一的 URL 访问。越接近这种理想情况，您的网站就越容易被捕获和收录。如果您的内容管理系统或当前的网站建立难以实施，您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。

0

2021-10-02

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页(几近一个的抓取与收录、收录的演讲内容以及要点概括)

0 个评论

发起人

AI时代内容工厂

在线抓取网页(几近一个的抓取与收录、收录的演讲内容以及要点概括)

0 个评论

发起人

相关问题