爬虫(crawler)是搜索引擎获取网络资源的重要道路

优采云发布时间: 2021-06-13 02:21

　　众所周知，一个网站的流量可以分为三个部分：直接、引荐和搜索引擎。其实搜索部分也可以属于参考页的范畴，但是它太重要了，我们不禁把它拿出来作为一个独立的分析模块。一般来说，这三部分的比例会根据网坐的性质和发展情况而有所不同。例如，对于门户网站用户来说，反射访问的百分比一般应该更高，否则“门户”一词将失去意义。同样，对于一些提供服务的互联网用户来说，搜索部分应该更高一些，因为当用户需要查找某项服务时，第一个用户往往是百度或谷歌。对于这三部分的流量，会有不同的策略和方法来增加自己网络的访问量。在本文中，作者主要关注搜索引擎。

　　让我们介绍一下今天的主角-爬虫。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫，搜索引擎可以有机地获取互联网上最新的网页，为后续的关键词分析、排序等提供素材。既然爬虫这么重要，那我们就应该给他提供一些爬虫的“食物”（这里不想多说技术分析，比如广度优先，深度优先，内容相关，网页重要性，等等，这些都是留给个别研发人员去关心的东西，这里我只想描述一些概念点，适合大家理解和讨论）。但是这里有一个很重要的概念，爬虫是非常有礼貌的，不会在没有通知的情况下访问。它将在其“用户代理”中声称“我是某个搜索引擎的爬虫”。这为我们提供了一个很好的机会，因为毕竟机器不同于人类。为了达到人类最好的视觉效果，搜索引擎分析页面可能是不切实际的，反之亦然。通过检测爬虫圈的方法，你可以把一个只适合机器查看的完整页面给爬虫，但完全不影响你真实用户的用户体验。而且，随着时间的发展，爬虫也变得越来越聪明。一些爬虫，比如谷歌，本身已经可以理解页面中的javascript（但不是这样的外部javascript），所以如果不想爬虫去某个链接完成后，可以把它写成javascript 至于html中的每个标签应该怎么写才能对搜索引擎有利，网上已经有很多文章了，本文就不赘述了。

　　爬虫的一个重要但无奈的特性是爬虫的资源是有限的。特别是对于一些较小的搜索引擎，他们会设计自己的一套算法来决定是否允许爬虫访问某个页面。如果这个页面不“重要”（由每个引擎定义），资源不够，这个页面将被忽略。让我们做一个实验。到百度网站，输出“site:”，会显示“约694000篇”，再到搜狗网页试试，会看到“找到6个网页”。这对所有想做搜索引擎优化的人来说也是一个*敏*感*词*。这个时候不要太在意（小规模搜索引擎）的后果。如果资金同意，这个时候买一些关键词在小型引擎上的效果会更好。

0

2021-06-13

痞子瑞seo深度解析：全面挖掘搜索引擎优化的核心秘密

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫(crawler)是搜索引擎获取网络资源的重要道路

0 个评论

发起人