今天带你们回顾一下”云采集爬虫“这几年的发展史
优采云 发布时间: 2020-08-09 13:49摘要:其实云采集就是如此简单的东西,就是通过对云端采集服务器的控制,为每台服务器分配采集任务,通过指令控制其采集。但优采云由于是首创云采集技术,也是用户量十分大的云采集平台,所以云采集这件事,优采云走了好远好长的一段路。所以我们仍然宣称,只有优采云的云采集,才是真正的云采集。
先说一个事:"云采集"这个概念,是我们优采云于2013年提出的,先于*敏*感*词*。
2013年,优采云从13年创业开始,就自创了云采集技术,这个我们可以在优采云的版本更新记录里边找到痕迹。只是因为先前创业,对于IP的意识不充分,也没钱没精力去申请相关知识产权,以致于现今好多竞品公司都在吹她们有云采集技术,但好多公司虽然都没搞清楚真正的云采集技术。
2013-12-06版本更新记录
2014-05-01版本更新记录
我们明天要来谈的就是云采集是怎样颠覆整个爬虫界的,当然,因为我们优采云是当事人,所以笔者可以带着你们回顾近几年云采集爬虫的发展史。
云采集是在哪些背景下诞生的?
2006年8月9日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎会议(SES San Jose 2006)首次提出“云计算”(Cloud Computing)的概念。Google“云端估算”源于Google工程师克里斯托弗·比希利亚所做的“Google 101”项目。
直到08年,中国IT界才开始在谈云估算,笔者作为一名07年计算机专业毕业生,正好赶上这一波风潮,但说实话,那时候都是概念,没有人看到真正的产品,所以都没搞清楚到底是什么东西。顶多就据说Google 的Google Charts,Google Words等。当时没明白这种产品有哪些用,不就是网页版的word,excel嘛,还没Microsoft的好用。
但是多年工作以后,才晓得,Microsoft word,excel,只能用于windows的机子,你想在苹果笔记本上用,就得费老大劲了。但是网页版就不同,它是跨平台的,你用习惯了,你在哪都是一样用,而且可以在云端保存资料。更关健的是,原来帮助我们提升工作效率或组织管理的工作,不再单单借助软件,而是云端服务。
随着云计算的诞生,业内也诞生了下边三种层次的服务
基础设施级服务(IaaS),
平台级服务(PaaS),
软件级服务(SaaS)。
我们可以把SaaS简单理解为在云端提供标准化产品的服务模式。由于其标准化,所以无论1个企业在用,还是100个企业使用,都是一个开发成本。这对产品在某个场景下的通用性要求十分高,但也极大的提高了产品在市面上的竞争力。企业采用SaaS模式在疗效上与企业自建信息系统基本没有区别,但节约了大量资金,从而大幅度增加了企业信息化的门槛与风险。
许多SaaS企业都是提供按月按年的收费模式,这有别于之前软件以项目化的方式,深受*敏*感*词*喜欢,所以在接下来的六年中,也演化为一种主流的企业服务方式。
*敏*感*词*数据等等,都是在saas领域做得非常好的企业。
优采云正是在云估算与SaaS时尚的背景之下,创新使用了云采集技术,并提供SaaS的营运模式。用户只需在客户端上传采集规则,即可通过调用云端分布式服务式进行采集,每一台云端的服务器均会根据采集规则进行采集。所以优采云团队就给这些采集模式,取了个名叫”云采集“
为什么会诞生”云采集“
在优采云出来创业的时侯,市面上是有太成熟太强悍的竞争对手。但她们是以传统软件运营商的模式在运作,主要是卖授权码的方式,用户想要在笔记本上运行,就必须订购他的授权码。就像我们初期用Word 2003、2007时,经常须要去网上搜索破解码一样。那时的竞争对手如日中天,但它也仅仅只是一个客户端软件,也只能在本地笔记本进行采集。
优采云创始人刘宝强keven,有多年的国企和海外工作经验,曾经也是某国际金融巨头公司数据采集方向的研制工程师,他一心想要作出一款通用化的网页采集产品来替代公司编撰的诸多采集代码。他太清楚各类采集技术的优势与劣势,问题与困局。
Keven当时也晓得竞争对手的强悍,那时候的他,其实不敢想像自已能作出一款更流弊的采集产品,因为对手实在很强悍了,采集界无人不识。但他晓得,超越竞争对手的,往往不是追随策略,而是应当颠覆,采用与她们完用不一样的思路。
Keven剖析,传统的网路恳求获取数据的方法,走的还是http post ,get恳求,这确实是当时进行网页采集的主流模式,而且这些方式效率非常高,但这些模式复杂程度也十分高,不是一般人操作配置得了,能理解这一套理论的,大部分都是具备开发背景的人。
他晓得在大公司上面,大部分做数据搜集工作的人,都不是计算机开发人员背景,所以他给自已的采集产品定位,要做一款普通人会用的采集产品,通过界面的定位,拖拽,即可进行规则的配置。经过小半年的钻研,各项难关均被他突破,实现了所见即所得的采集工作流配置模式。
但问题也随之而来,由于是通过浏览器加载网页之后再获取数据的方法,这样竞品其实一个恳求就可获取到的数据,而因为优采云需要加载整个网页,这可能得涉及上百个恳求,这样在采集速度上,就变得慢了。(大家可以用httpwatch看一下浏览器打开一个网页得涉及多少个恳求)
解决了易用性的问题后形成了速率问题?
那如何解决?
如果有多台机子在云端同时采,甚至对规则上面的URL列表进行分拆,让云端的服务器分布式同时进行采集,那就可以提高N倍以上的速率。这条路是可行的,但是这条路又带来另外一个问题。
解决了速率问题后形成了成本问题?
那如何解决?
keven判定,如果租用10台云服务器,通过共享经济的概念,把成本分摊,其实每位用户每个月仅需小几百块钱的成本。相对于数据的价值,是远远小于这个投入的,应该会有用户乐意付费使用。
而且成本问题应当不是大问题,根据摩尔定律理论,硬件成本只会越来越低。事实确实这么,包括后期,优采云通过与主流的云服务厂商合作,有效地控制了整个云服务器成本,帮助用户将这块的成本增加。
基于此,在2013年Q4,在数据采集领域,优采云先于*敏*感*词*龙头企业,创新性地塑造了一种采集模式——云采集。
云采集后面的发展史
其实云采集就是如此简单的东西,就是通过对云端采集服务器的控制,为每台服务器分配采集任务,通过指令控制其采集。但优采云由于是创新的云采集技术,也是用户量十分大的云采集平台,所以云采集这件事,优采云走了好远好长的一段路。所以我们仍然宣称,只有优采云的云采集,才是真正的云采集。
1突破多项技术难关
优采云在5年的营运过程,逐渐突破云采集各项困局,这上面的许多困局,在没有大数据面前,其实都是不会出现的。我举几个事例:
有一些项目,自吹自已拥有云采集技术,但是实际试用的时侯,他们就漏洞百出。比如我们可以控制100台服务器采集数据,但若果只有一个数据存储支持导入数据,那将会导致导入数据比采集慢100倍的困局。你只能眼见数据在库里而难以动弹。
有一些人以为,有服务器在云端进行采集,就叫云采集。但却不知道这上面成百上千台服务器同时采集的时侯,他背后须要大数据储存解决方案的支撑。才能使采集到的数据一条不漏地储存在数据库里,并且是有序地储存,在后期便捷检索,查询,导出。
由于采集的网页数据状态不一,云采集是须要动态分配,并且做好许多事前工作。有时候一些网站有防采集策略,在采集之前,能否判别出对方网站对你的一些举措与判定,或者在采集过程中动态调整服务器运行策略,这也是对云采集解决方案的考验。
2持续性的提供稳定的采集与导入服务
优采云现在在全球拥有超过5000台以上的服务器,现在每晚采集与导入的数据,都是以T估算服务于全世界各语言各领域的采集用户,对于企业级产品来讲,除了技术外,能否提供稳定的运维是一大关健。
优采云有多个运维后台,随时检测整个服务器集群每位采集服务器的状况,在出现状况的时侯,通过灵活多开服务器,调配服务器,让顾客的采集生产环境与数据,保持相对的稳定。
这样庞大的云服务器采集集群,是任何一个竞争对手所不能比拟的,并且在这个庞大的集群面前,优采云依然保持稳定的采集与导入服务。
3其它资质
优采云在中国大数据业内,连续两年在数据搜集领域被评为第一,这也足以证明优采云在数据采集这一领域的常年积累与贡献。
最后一段介绍你们可以理解为硬广啊哈哈,我们晓得云采集是怎样诞生,是在哪些条件下诞生,还有主要的技术难点,还有一街过来我们突破了哪一些问题。回顾这段历史,是想向你们表明,我们优采云一直在致力于提供稳定的云采集服务,这条路还有太长一段路要走,我们压力也在不断减小,我们也在不断优化,这个过程有点曲折,还须要我们优采云的用户对我们多多支持,我们也会尽最大努力来给以回馈。
一起加油!