爬虫(crawler)是搜索引擎获取网络资源的重要道路

优采云 发布时间: 2021-06-13 02:21

  爬虫(crawler)是搜索引擎获取网络资源的重要道路

  众所周知,一个网站的流量可以分为三个部分:直接、引荐和搜索引擎。其实搜索部分也可以属于参考页的范畴,但是它太重要了,我们不禁把它拿出来作为一个独立的分析模块。一般来说,这三部分的比例会根据网坐的性质和发展情况而有所不同。例如,对于门户网站用户来说,反射访问的百分比一般应该更高,否则“门户”一词将失去意义。同样,对于一些提供服务的互联网用户来说,搜索部分应该更高一些,因为当用户需要查找某项服务时,第一个用户往往是百度或谷歌。对于这三部分的流量,会有不同的策略和方法来增加自己网络的访问量。在本文中,作者主要关注搜索引擎。

  让我们介绍一下今天的主角-爬虫。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫,搜索引擎可以有机地获取互联网上最新的网页,为后续的关键词分析、排序等提供素材。既然爬虫这么重要,那我们就应该给他提供一些爬虫的“食物”(这里不想多说技术分析,比如广度优先,深度优先,内容相关,网页重要性,等等,这些都是留给个别研发人员去关心的东西,这里我只想描述一些概念点,适合大家理解和讨论)。但是这里有一个很重要的概念,爬虫是非常有礼貌的,不会在没有通知的情况下访问。它将在其“用户代理”中声称“我是某个搜索引擎的爬虫”。这为我们提供了一个很好的机会,因为毕竟机器不同于人类。为了达到人类最好的视觉效果,搜索引擎分析页面可能是不切实际的,反之亦然。通过检测爬虫圈的方法,你可以把一个只适合机器查看的完整页面给爬虫,但完全不影响你真实用户的用户体验。而且,随着时间的发展,爬虫也变得越来越聪明。一些爬虫,比如谷歌,本身已经可以理解页面中的javascript(但不是这样的外部javascript),所以如果不想爬虫去某个链接完成后,可以把它写成javascript 至于html中的每个标签应该怎么写才能对搜索引擎有利,网上已经有很多文章了,本文就不赘述了。

  爬虫的一个重要但无奈的特性是爬虫的资源是有限的。特别是对于一些较小的搜索引擎,他们会设计自己的一套算法来决定是否允许爬虫访问某个页面。如果这个页面不“重要”(由每个引擎定义),资源不够,这个页面将被忽略。让我们做一个实验。到百度网站,输出“site:”,会显示“约694000篇”,再到搜狗网页试试,会看到“找到6个网页”。这对所有想做搜索引擎优化的人来说也是一个*敏*感*词*。这个时候不要太在意(小规模搜索引擎)的后果。如果资金同意,这个时候买一些关键词在小型引擎上的效果会更好。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线