深圳网站建设:如何控制好“无限空间”的桥梁
优采云 发布时间: 2021-06-20 06:02深圳网站建设:如何控制好“无限空间”的桥梁
网址就像网站和搜索引擎爬虫之间的桥梁:为了能够抓取你的网站内容,爬虫需要能够找到并跨越这些桥梁(即找到并抓取你的网址) 如果你的 URL 很复杂或者很长,爬虫就不得不花时间反复跟踪这些 URL;如果您的 URL 是常规的并且直接指向您的独特内容,那么抓取工具可以专注于理解您的内容,而不是仅仅抓取空网页或被不同的 URL 引导,最终抓取的是相同的重复内容。
一些帮助爬虫更快更好地找到你的内容的建议,深圳网站建认为主要包括:
1、去掉URL中用户相关的参数
URL 中不影响网页内容的参数——如 sessionID 或排序参数——可以从 URL 中移除并由 cookie 记录。通过将这些信息添加到 cookie 中,然后 301 定向到一个“干净”的 URL,您可以保留原创内容并减少指向相同内容的 URL 数量。
2、控制无限空间
你的网站上有日历吗,上面的链接指向无数过去和未来的日期(每个链接地址都是唯一的二)?你的网页地址是不是加了一个 &page=3563 参数后,你可以还是返回200码,就算根本没有那么多页面?这样的话,你的网站就会出现所谓的“无限空间”,会浪费爬虫机器人和你的@带宽k14@.如何控制“无限空间”,请参考这里的一些技巧。
3、防止 Google 抓取工具抓取它们无法处理的页面
通过使用您的 robots.txt 文件,您可以防止您的登录页面、联系信息、购物车和其他爬虫无法处理的页面被抓取。 (爬行动物以吝啬和害羞着称,所以一般不会“添加商品到购物车”或“联系我们”)。通过这种方式,您可以让爬虫花更多的时间在您的网站 上爬取他们可以处理的内容。
4、一个网址,一段内容
在理想世界中,深圳网站construction 认为 URL 和内容是一一对应的:每个 URL 对应一个唯一的内容,每个内容只能通过唯一网址。越接近这种理想情况,您的网站 就越容易被捕获,收录 也就越容易被捕获。如果您的内容管理系统或当前的网站 机构难以实施,您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。