爬虫（crawler）：搜索引擎获取网络资源的重要途径

优采云发布时间: 2021-07-02 05:16

　　（据报道），到目前为止我还没有写过一篇关于搜索引擎优化的文章文章。作者的初衷是让这个博客成为大家讨论互联网技术、讨论SEO或者SEM的地方，所以今天打算写第一篇关于这个领域的文章文章。

　　让我们介绍一下今天的主角-爬虫。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫，搜索引擎可以有机地获取互联网上最新的网页，为后续的分析关键词、排序等提供素材。既然爬虫这么重要，那么我们就应该为它们提供一些“食物”（技术分析这里不想多说，比如广度优先、深度优先、内容相关、网页重要性等等，这些都是留给个人研发人员去关心的东西。这里我只想说描述一些概念点，适合大家理解和讨论）。但是这里有一个很重要的概念，爬虫是非常有礼貌的，不会在没有通知的情况下访问。它将在其“用户代理”中声称“我是某个搜索引擎的爬虫”。这为我们提供了一个很好的机会，因为毕竟机器不同于人类。为了达到人类最好的视觉效果，可能不利于搜索引擎对页面的分析，反之亦然。通过检测爬虫，可以将完全适合本机的页面给爬虫，但不影响真实用户的用户体验。而且，随着时间的发展，爬虫也变得越来越聪明。一些爬虫，比如谷歌，本身已经可以理解页面中的javascript（但不能理解外部scripttype=”text/javascript”src=”XXX”javascript），所以如果你不希望爬虫去某个链接，你可以用javascript编写它。至于html中的每个标签应该怎么写才能对搜索引擎有利，网上已经有很多文章了，本文就不赘述了。

　　众所周知，一个网站流量大致可以分为三个部分关键词ranking查询点：直接访问（direct）、引用（referer）和搜索（searchengine）。其实搜索部分也可以属于参考页的范畴，但是它太重要了，我们不禁把它拿出来作为一个独立的分析模块。一般来说，根据网站的性质和发展，这三个部分的比例会有所不同。比如门户网站，直接访问的百分比一般应该是网站high，否则“门户”这个词就失去意义了。同样，对于一些提供服务的网站，搜索部分应该更高一些，因为当用户需要查找某个服务时，第一站往往是百度或谷歌。对于这三部分流量，会有不同的策略和方法来增加你的网站流量。在本文中，作者主要关注搜索引擎。

　　爬虫的一个重要但令人沮丧的特性是百度关键词ranking 的资源有限。特别是对于一些较小的搜索引擎，他们会设计自己的一套算法来决定是否允许爬虫访问某个页面。如果这个页面不“重要”（由每个引擎定义），资源不够，这个页面会被忽略。我们不妨做个实验。去百度的网站输入“site:”，会显示“大约694000篇”，然后去搜狗的网页试试，会看到“找到6个网页”。这也是对所有想做搜索引擎优化的人的警告，此时不要太在意（小规模搜索引擎的）结果。如果资金允许，这个时候买一些关键词在小规模的引擎上效果会更好。

　　我的想法：作为 Alexa 高级工程师关键词ranking 搜索者，我很自豪谷歌一直在早期阶段使用 Alexa 的爬虫结果。我还记得谷歌两位创始人来Alexa寻求合作时一位老员工跟我说话的场景。但是时代变化太快了，现在谷歌已经，我们被亚马逊收购了，不得不说“shameonAlexa”。这些都是题外话。如今，搜索引擎优化是互联网上非常流行的词汇。但是，如果我们对搜索引擎本身没有一点了解，就很难做出有针对性的判断和行动。美国有句谚语：“好医生知道怎么做*敏*感*词*，但优秀的医生知道怎么不做*敏*感*词*”。我认为这同样适用于这里。一个优秀的SEO专家应该知道他不应该做SEO的地方。以牺牲用户体验为代价来增加流量的行为往往得不偿失。我希望读者在做出类似决定时能够谨慎行事。

　　“搜索引擎优化高级编程”

　　转载注意：,,

0

2021-07-02

搜索引擎优化高级编程

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫（crawler）：搜索引擎获取网络资源的重要途径

0 个评论

发起人