谷歌抓取网页视频插件(搜索引擎来说能够多么容易的抓取您的网站吗?(图))

优采云 发布时间: 2021-10-08 19:18

  谷歌抓取网页视频插件(搜索引擎来说能够多么容易的抓取您的网站吗?(图))

  提示:很多关于网站的结构、爬取和收录,甚至排名的问题都可以归结为一个核心问题,那就是:搜索引擎爬取你的网站@有多容易>? 我们在最近的几个事件中讨论了这个话题。下面你将看到我们关于这个问题的演讲内容和要点总结。

  对于搜索引擎来说,每天要处理的网页和数据实在是太多了,所以不要以为搜索引擎会耐心抓取或者收录你的网站。对于站长来说,只有做网站更适合搜索引擎爬取,才能获得最大的收益。

  许多关于网站的结构、爬取和收录,甚至排名的问题都可以归结为一个核心问题,那就是:搜索引擎爬取你的网站有多容易?我们在最近的几个事件中讨论了这个话题。下面你将看到我们关于这个问题的演讲内容和主要观点的总结。

  网络世界是巨大的;每时每刻都在产生新的内容。谷歌自己的资源是有限的。当面对几乎无穷无尽的网络内容时,Googlebot 只能查找和抓取一定比例的内容。然后,我们只能索引我们抓取的部分内容。

  URL就像网站和搜索引擎爬虫之间的桥梁:为了能够抓取你的内容网站,爬虫需要能够找到并跨越这些桥梁(即找到并抓取你的URLs )。如果你的 URL 很复杂或者很长,爬虫就不得不花时间反复跟踪这些 URL;如果你的 URL 是常规的并且直接指向你的独特内容,那么爬虫可以专注于理解你的内容,而不是仅仅抓取空网页或被不同的 URL 引导,最终抓取的是相同的重复内容。

  在上面的幻灯片中,您可以看到一些我们应该避免的反例——这些都是现实中存在的 URL 的示例(尽管出于隐私原因,它们的名称已被替换),这些示例包括被黑的 URL 和编码、伪装成一部分的冗余参数URL 路径、无限爬取空间等,您还可以找到一些建议,帮助您理顺这些 URL 迷宫,帮助爬虫更快更好地找到您的内容,包括:

  1)去除URL中的用户相关参数

  URL 中不影响网页内容的参数,例如会话 ID 或排序参数,可以从 URL 中删除并由 cookie 记录。通过将此信息添加到 cookie,然后 301 重定向到“干净”的 URL,您可以保留原创内容并减少指向相同内容的 URL 数量。

  控制无限空间

  你的网站上有日历吗,上面的链接指向无数过去和未来的日期(每个链接地址都是唯一的二)?你的网页地址是不是加了一个 &page= 3563 参数后,还可以返回200个代码,即使根本没有那么多页面?如果是这样的话,你的网站上就会出现所谓的“无限空间”。这种情况会浪费爬虫机器人和你的带宽网站.如何控制“无限空间”,请参考这里的一些技巧。

  2)防止 Google 抓取工具抓取它们无法处理的页面

  通过使用您的 robots.txt 文件,您可以防止您的登录页面、联系信息、购物车和其他爬虫无法处理的页面被抓取。(爬行动物以吝啬和害羞着称,所以一般不会“添加商品到购物车”或“联系我们”)。这样,你可以让爬虫花更多的时间在你的网站上爬取他们能处理的东西。

  一人一票。一个网址,一段内容

  在理想的世界中,URL 和内容是一一对应的:每个 URL 对应一个唯一的内容,每个内容只能通过唯一的 URL 访问。越接近这种理想情况,您的 网站 就越容易被捕获和 收录。如果您的内容管理系统或当前的网站 建立难以实施,您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。

  

  更多谷歌黑板报:让谷歌更容易抓取收录网页,请到论坛查看:

  【双击滚动屏幕】【评论】【 】【 】【 】来源:互联网日期:2009-9-2

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线