搜索引擎如何抓取网页(如何控制好“无限空间”的桥梁更好处理方法)

优采云发布时间: 2021-11-17 20:19

　　试分析一下如何让搜索引擎爬取网站？文章来源：*敏*感*词*网址就像是网站和搜索引擎爬虫之间的桥梁：为了爬取你的内容网站，爬虫需要能够找到并跨越这些桥梁（即，查找并抓取您的网址）。如果您的网址复杂或冗长，爬虫就不得不花时间反复跟踪这些网址；如果你的 URL 是常规的并且直接指向你的独特内容，那么爬虫可以专注于理解你的内容，而不是仅仅抓取空网页或被不同的 URL 引导，最终会抓取相同的重复内容。一些帮助爬虫更快更好地找到你的内容的建议，主要包括：1、去除URL中与用户相关的参数URL中那些不会影响网页内容的参数——比如会话ID或排序参数——可以从URL中去除，并被cookie记录下来。通过将这些信息添加到 cookie，然后 301 定向到一个“干净”的 URL，您可以保留原创内容并减少指向相同内容的 URL 数量。2、控制无限空间。你的网站上有日历吗，上面的链接指向无数过去和未来的日期（每个链接地址都是唯一的二）？你的网页地址加一个&page=3563参数后就可以了还是返回200码，即使根本没有那么多页？如果是这样，你的网站上就会出现所谓的“无限空间”，这种情况会浪费爬虫机器人和你网站的带宽。如何控制“无限空间”，请参考这里的一些提示。3、防止 Google 抓取工具抓取它们无法使用您的机器人处理的页面。txt文件，可以防止您的登录页面、*敏*感*词*、购物车等爬虫无法处理的页面被爬取。（爬行动物以吝啬和害羞着称，所以一般不会“添加商品到购物车”或“联系我们”）。这样，你就可以让爬虫花更多的时间在一个他们可以处理的 URL 内爬取你的网站，一段内容。在理想的世界中，URL 和内容之间存在*敏*感*词*的关系。对应关系：每个 URL 对应一个唯一的内容，并且每条内容只能通过唯一的 URL 访问。越接近这种理想情况，您的网站就越容易被捕获和收录。如果您的内容管理系统或当前的网站建立难以实施，您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。

0

2021-11-17

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(如何控制好“无限空间”的桥梁更好处理方法)

0 个评论

发起人