如果我说数据采集圈子没有一个好产品你会打我么?
优采云 发布时间: 2020-08-12 09:01我之前写了两篇文章简单的剖析了一下数据行业的第一步,即数据采集圈子的情况,分别是:
数据采集器圈子的竞品剖析
简单谈一下数据采集这个圈子里的公司
今天我谈一下我作为产品猫的看法。这里我们先剖析不同角色的需求。
作为数据需求提出者,也就是用户,我希望:
以最简单操作的方式获得我想要的数据数据获取可靠、完整、最新我需要个性化的服务,需要良好的售后服务和支持我希望我的数据容易读取、展示、清洗处理我希望我的数据采集过程可靠、稳定、可控、直观我希望很快就可以得到我想要的数据我希望以低廉的价钱获得数据
作为数据和规则提供者,我希望:
我需要可以以符合我开发习惯的方式开发爬虫我希望我开发的爬虫,只能让给我收钱订购的顾客使用而且不可传播和盗版我希望我开发的爬虫,可以使顾客运行在不同的平台上或则云端我希望研制过程中所需的外部支持,包括IP代理和验证码识别等可以简单易用的接入,并且可以使用户自己选择我希望我开发的爬虫可以更通用,一次开发可以使更多人使用我希望我的劳动可以得到合理的酬劳
作为平台,我希望:
买家和店家用户量、活跃度、评价持续提高平台可以挣钱,并且为股东、投资人、员工带来价值平台确实是平台,而不是打着平台幌子的小系统平台具备可持续发展性,不要深陷某个循环里
能满足所有人需求的产品?没有!是的,没有完美的平台,没有完美的系统,只有无限的可能性摆在我们的面前。(恩,光吐槽是没前途的,一边吐槽一边思索怎么构建才是产品猫应当做的事情)
造数科技目前是刚才起步,它主要解决的是操作复杂度问题,造数爬虫的上手曲线趋近于0。新手可以在接近于没有任何专业知识储备的情况下上手,但是可以采集的网站是大幅度遭到局限的。目前的造数作为普通用户只能达到2级页面深度和列表化采集,没有数据二次处理能力,比如替换、正则变换、日期规范化等。如果默认的点击未能把我想采集的列表都放进去,再点击只能再降低一列而已;如果页面的URL列表不是根据数字规范生成也不行。当然,这是必然情况,数据采集是专业性与复杂度并存的事情,简化操作的心没问题,但是问题是简化的可能性则是另一个问题,页面结构的复杂程度常常最终会超过我们的想像。现在,让我们以宽容的态度看这个年青团队的下一步发展以及她们的技术突破。
优采云正在往“供应链”方向发展,是的,你没看错,是采集供应链。以优采云采集器为面向顾客的基本端,延伸至微图进行数据基本清洗、语义剖析和BI可视化,最后以数多多为大平台融合数据和规则交易、需求发布等等。但是考虑到采集机制的问题,第一优采云在大多数页面上的采集速度是难以超过不需要渲染页面的爬虫的;第二规则的编撰并没有这么的简单,xpath和html的基础知识还是须要的,学习曲线还是比较险峻的;第三,单机采集和云采集之间的协调和融合机制还不够建立,有些单机采集没问题的到了云端采集不见得效果好,毕竟云是你们共用的;第四,单独win平台引起兼容性不够;第五,面对新的反采集措施,对抗能力不足(毕竟没有代码自由度高)。
优采云具备浓厚的“代码和技术气息”,优采云的学习曲线是悬崖式的,懂Html+Xpath+正则表达式+JS语言等等能够进行研制。好的是优采云为了增加菜鸟上手难度,有现成的采集爬虫可以用,只要输入一些选项就行了。优采云也是惟一一个解决了研制人员代码版权的平台,用户可以在看不到源代码的情况下使用爬虫,但是弊端就是,如果是没有开发下来的爬虫,也无法在网上简单的通过向他人订购获得,一方面有研制成本问题,另一方面给顾客的都是源代码,版权保护丧失意义了。
这里,我引用内森弗尔写的一本名叫《创新者的方式》书里的理念来说明一下互联网公开数据采集行业面临的问题以及可能的解决方案。
1,发现问题
2,梳理解决问题须要的工作
3,提出创新点
4,最小化解决方案
5,验证商业模式
6,风险管理
第一步思索需求的本质,我个人觉得,用户通过数据采集工具获取数据是个伪需求,用户的需求不是工具,是服务。首先广大的用户并不是研制人员,广大的用户是“需要数据的人”,他们不是采集专家。他们希望有人可以直接把想要的数据给她们,不管是免费还是付费。任何觉得顾客乐意自己学习工具使用的看法我认为都是错误的,我们构建在最原创的需求上,那就是以最低廉、省事、可靠、稳定的方式获得数据。
如果从这个角度来想,客户关注的并不是采集工具,而是服务。如何提供一个良好的服务,会成为接下来那些公司的发展重点。这里我把需求的本质定义为:以最合理的价钱,获得优质的数据采集服务。
第二步剖析问题的本质,采集数据的问题集中在顾客未能容易、稳定、快速的获取数据,研发人员则是难以对自己的努力得到可靠地保障,研发的努力得不到保护,数据又容易被二次销售。也就是说研制人员的努力没有得到挺好地保护,优采云一定程度上保护了研制人员的利益,但是其内部封闭的特点,又使外部研制人员失去了自由度。所以这儿我把问题的本质定义为:保护爬虫版权,提高采集效率、稳定性,对抗防采集技术。
第三步,分析市面上的产品是怎样解决问题的。
首先造数是有一套自己的后台技术的,而且相当智能,虽然由于公司创立还不久,功能还比较中级,但是年青技术团队的优势就是突破自我。
优采云的采集本质是模拟浏览器,也就是将页面渲染下来,这样的用处是解决好多JS和Ajax的坑,这部份的坑不太好解释,简单来说就是不渲染出页面,很多数据并不会加载到html代码里,也就意味着通常的采集会采集不到数据。代价就是速率会变慢,线程数目也会受限,毕竟对内存占用率会大幅度提高。另一点用处就是,页面的变化速率远远高于数据包的变化速率,所以靠抓包采集的爬虫常常须要改改版,否则就废了。
优采云是一套JS代码体系,自由度很高,编程可以做的事情它都能做。而且得益于她们自成体系并且又使爬虫工程师太熟悉的采集框架,上手难度似乎远低于自己编撰一个成框架的爬虫。
我们把问题简化为:
简——面向菜鸟或任何不想自己学习和研制的人,需要最简单的操作;
快——所有人都希望可以最快速率的获得数据;
稳——在稳定且不漏采的情况下获得数据;
赢——共赢是永恒不变的事情,要保护顾客利益,也要保护平台和生产者的利益。
首先来看“简”,面向广大的不想费力写规则的顾客,优采云和优采云都支持输入一些参数就可以采集的简易采集,这种采集方法不需要用户会写规则或爬虫,直接输入想采集的一些基本参数就可以了。缺点也很明显,没有现成做下来的规则就无法采集。此外两个公司也都有数据交易平台,这个平台除了可以交易数据,也可以交易规则和发布需求。这方面数多多做的更好一些,毕竟是独立的平台,优采云的需求发布还没做到上面,这也是优采云的一些“闭塞性”,这里并不是说闭塞肯定不好,但是确实是失去自由度为代价的。比如顾客无法自由的在平台上发布需求,研发人员也难以直接和顾客沟通必须是通过平台内部调度。造数原本就是最简单的操作,甚至可以说造数就是简的最佳彰显。
接下来看“快”,单机采集只能采取多线程的方式,会受限于硬件性能,优采云就是这么。优采云是采取云采集的方式,需要更多节点,就上定制版或企业版。优采云本身就是个云采集,节点是自由控制和可以选购的,舍得出钱就可以更快。造数把简字发扬光大到都不使你在乎后台有多少节点进行云采集了……但是这种采集平台真的很快么?受限于服务器网速、硬件、采集网站响应速率、网站反爬虫举措等多方面诱因,有的快,有的慢。如果说须要进行标准化评测,我肯定测不了,为什么呢?因为我完全无法标准化啊……同样采集京东,优采云云采集我不确定是几个节点采集,没说明啊……优采云虽然看得到节点数,但是我哪晓得每位节点的网路和硬件配置啊,没人说……造数嘛……快还是很快的,但是愈发不知道后台用了多少采集资源了。
然后我们来看“稳”,稳定的采集、稳定的输出是核心问题。实际情况怎样呢?优采云的云采集或者由于规则问题,或者由于规则作者熟练度问题,很多情况下会“漏数据”……优采云因为好多中级采集为了避免IP被封,挂高匿IP代理的时侯速率反倒受影响了,让我总认为没有理想中速率这么快。造数似乎没哪些可吐槽的,还是比较稳的。