深圳网站建设：如何控制好“无限空间”的桥梁

优采云发布时间: 2021-06-20 06:02

　　网址就像网站和搜索引擎爬虫之间的桥梁：为了能够抓取你的网站内容，爬虫需要能够找到并跨越这些桥梁（即找到并抓取你的网址）如果你的 URL 很复杂或者很长，爬虫就不得不花时间反复跟踪这些 URL；如果您的 URL 是常规的并且直接指向您的独特内容，那么抓取工具可以专注于理解您的内容，而不是仅仅抓取空网页或被不同的 URL 引导，最终抓取的是相同的重复内容。

　　一些帮助爬虫更快更好地找到你的内容的建议，深圳网站建认为主要包括：

　　1、去掉URL中用户相关的参数

　　URL 中不影响网页内容的参数——如 sessionID 或排序参数——可以从 URL 中移除并由 cookie 记录。通过将这些信息添加到 cookie 中，然后 301 定向到一个“干净”的 URL，您可以保留原创内容并减少指向相同内容的 URL 数量。

　　2、控制无限空间

　　你的网站上有日历吗，上面的链接指向无数过去和未来的日期（每个链接地址都是唯一的二)？你的网页地址是不是加了一个 &page=3563 参数后，你可以还是返回200码，就算根本没有那么多页面？这样的话，你的网站就会出现所谓的“无限空间”，会浪费爬虫机器人和你的@带宽k14@.如何控制“无限空间”，请参考这里的一些技巧。

　　3、防止 Google 抓取工具抓取它们无法处理的页面

　　通过使用您的 robots.txt 文件，您可以防止您的登录页面、联系信息、购物车和其他爬虫无法处理的页面被抓取。（爬行动物以吝啬和害羞着称，所以一般不会“添加商品到购物车”或“联系我们”）。通过这种方式，您可以让爬虫花更多的时间在您的网站上爬取他们可以处理的内容。

　　4、一个网址，一段内容

　　在理想世界中，深圳网站construction 认为 URL 和内容是一一对应的：每个 URL 对应一个唯一的内容，每个内容只能通过唯一网址。越接近这种理想情况，您的网站就越容易被捕获，收录也就越容易被捕获。如果您的内容管理系统或当前的网站机构难以实施，您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。

0

2021-06-20

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

深圳网站建设：如何控制好“无限空间”的桥梁

0 个评论

发起人