爬虫(crawler):搜索引擎获取网络资源的重要途径

优采云 发布时间: 2021-07-02 05:16

  爬虫(crawler):搜索引擎获取网络资源的重要途径

  (据报道),到目前为止我还没有写过一篇关于搜索引擎优化的文章文章。作者的初衷是让这个博客成为大家讨论互联网技术、讨论SEO或者SEM的地方,所以今天打算写第一篇关于这个领域的文章文章。

  让我们介绍一下今天的主角-爬虫。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫,搜索引擎可以有机地获取互联网上最新的网页,为后续的分析关键词、排序等提供素材。既然爬虫这么重要,那么我们就应该为它们提供一些“食物”(技术分析这里不想多说,比如广度优先、深度优先、内容相关、网页重要性等等,这些都是留给个人研发人员去关心的东西。这里我只想说描述一些概念点,适合大家理解和讨论)。但是这里有一个很重要的概念,爬虫是非常有礼貌的,不会在没有通知的情况下访问。它将在其“用户代理”中声称“我是某个搜索引擎的爬虫”。这为我们提供了一个很好的机会,因为毕竟机器不同于人类。为了达到人类最好的视觉效果,可能不利于搜索引擎对页面的分析,反之亦然。通过检测爬虫,可以将完全适合本机的页面给爬虫,但不影响真实用户的用户体验。而且,随着时间的发展,爬虫也变得越来越聪明。一些爬虫,比如谷歌,本身已经可以理解页面中的javascript(但不能理解外部scripttype=”text/javascript”src=”XXX”javascript),所以如果你不希望爬虫去某个链接,你可以用javascript编写它。至于html中的每个标签应该怎么写才能对搜索引擎有利,网上已经有很多文章了,本文就不赘述了。

  众所周知,一个网站流量大致可以分为三个部分关键词ranking查询点:直接访问(direct)、引用(referer)和搜索(searchengine)。其实搜索部分也可以属于参考页的范畴,但是它太重要了,我们不禁把它拿出来作为一个独立的分析模块。一般来说,根据网站的性质和发展,这三个部分的比例会有所不同。比如门户网站,直接访问的百分比一般应该是网站high,否则“门户”这个词就失去意义了。同样,对于一些提供服务的网站,搜索部分应该更高一些,因为当用户需要查找某个服务时,第一站往往是百度或谷歌。对于这三部分流量,会有不同的策略和方法来增加你的网站流量。在本文中,作者主要关注搜索引擎。

  爬虫的一个重要但令人沮丧的特性是百度关键词ranking 的资源有限。特别是对于一些较小的搜索引擎,他们会设计自己的一套算法来决定是否允许爬虫访问某个页面。如果这个页面不“重要”(由每个引擎定义),资源不够,这个页面会被忽略。我们不妨做个实验。去百度的网站输入“site:”,会显示“大约694000篇”,然后去搜狗的网页试试,会看到“找到6个网页”。这也是对所有想做搜索引擎优化的人的警告,此时不要太在意(小规模搜索引擎的)结果。如果资金允许,这个时候买一些关键词在小规模的引擎上效果会更好。

  我的想法:作为 Alexa 高级工程师 关键词ranking 搜索者,我很自豪谷歌一直在早期阶段使用 Alexa 的爬虫结果。我还记得谷歌两位创始人来Alexa寻求合作时一位老员工跟我说话的场景。但是时代变化太快了,现在谷歌已经,我们被亚马逊收购了,不得不说“shameonAlexa”。这些都是题外话。如今,搜索引擎优化是互联网上非常流行的词汇。但是,如果我们对搜索引擎本身没有一点了解,就很难做出有针对性的判断和行动。美国有句谚语:“好医生知道怎么做*敏*感*词*,但优秀的医生知道怎么不做*敏*感*词*”。我认为这同样适用于这里。一个优秀的SEO专家应该知道他不应该做SEO的地方。以牺牲用户体验为代价来增加流量的行为往往得不偿失。我希望读者在做出类似决定时能够谨慎行事。

  “搜索引擎优化高级编程

  转载注意:,,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线