搜索引擎如何抓取网页(如何控制好“无限空间”的桥梁更好处理方法)
优采云 发布时间: 2021-11-17 20:19搜索引擎如何抓取网页(如何控制好“无限空间”的桥梁更好处理方法)
试分析一下如何让搜索引擎爬取网站?文章来源:*敏*感*词*网址就像是网站和搜索引擎爬虫之间的桥梁:为了爬取你的内容网站,爬虫需要能够找到并跨越这些桥梁(即,查找并抓取您的网址)。如果您的网址复杂或冗长,爬虫就不得不花时间反复跟踪这些网址;如果你的 URL 是常规的并且直接指向你的独特内容,那么爬虫可以专注于理解你的内容,而不是仅仅抓取空网页或被不同的 URL 引导,最终会抓取相同的重复内容。一些帮助爬虫更快更好地找到你的内容的建议,主要包括:1、 去除URL中与用户相关的参数URL中那些不会影响网页内容的参数——比如会话ID或排序参数——可以从URL中去除,并被cookie记录下来。通过将这些信息添加到 cookie,然后 301 定向到一个“干净”的 URL,您可以保留原创内容并减少指向相同内容的 URL 数量。2、控制无限空间。你的网站上有日历吗,上面的链接指向无数过去和未来的日期(每个链接地址都是唯一的二)?你的网页地址加一个&page=3563参数后就可以了还是返回200码,即使根本没有那么多页?如果是这样,你的网站上就会出现所谓的“无限空间”,这种情况会浪费爬虫机器人和你网站的带宽。如何控制“无限空间”,请参考这里的一些提示。3、防止 Google 抓取工具抓取它们无法使用您的机器人处理的页面。txt文件,可以防止您的登录页面、*敏*感*词*、购物车等爬虫无法处理的页面被爬取。(爬行动物以吝啬和害羞着称,所以一般不会“添加商品到购物车”或“联系我们”)。这样,你就可以让爬虫花更多的时间在一个他们可以处理的 URL 内爬取你的 网站,一段内容。在理想的世界中,URL 和内容之间存在*敏*感*词*的关系。对应关系:每个 URL 对应一个唯一的内容,并且每条内容只能通过唯一的 URL 访问。越接近这种理想情况,您的 网站 就越容易被捕获和 收录。如果您的内容管理系统或当前的网站 建立难以实施,您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。