八爪鱼采集器能代替python爬虫吗?

优采云 发布时间: 2020-05-19 08:02

  

  44 人赞成了该回答

  作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己寻思技术的互联网营运喵。。。我来说说心得看法。

  八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导入excel文件和导入到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。

  不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是上面的坑只有用的多的人才清楚。关于这个我在我的博客里简单写了写,不过说实话心得太多,还没仔细整理。

  首先上面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很生硬,大批量采集页面的时侯很容易出错。另外用这个工具的,因为便捷,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。

  但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪比利器,一个勾选才能搞定。写代码很麻烦的,实现这种功能费力。

  八爪鱼虽然只是工具,自由度肯定完败编程。胜在便捷,快速,低成本。

  八爪鱼判定语录较弱,无法进行复杂判定,也未能执行复杂逻辑。还有就是八爪鱼只有企业版能够解决验证码问题,一般版本未能接入打码平台。

  还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图象辨识库解决,对接进去辨识便可。

  这里更新一下:

  之前写的觉得有片面性,毕竟是那个时代我的心境下写下来的。一段时间以后,思考了一下,数据采集的需求才是决定最终使用哪些工具的。如果我是大量数据采集需求的话,爬虫一定是不可避开的,因为代码的自由度更高。八爪鱼的目标我感觉也不是代替python,而是实现人人都能上手的采集器这个目标。

  另一点就是python学习容易,部署简单,开源免费。即使只学了scrapy也能解决一些问题了,不过麻烦的就是原本一些工具里很简单选择能够搞定的功能八爪鱼采集器高级模式,必须靠自己写或则拷贝他人的代码能够实现,如果不是专职写爬虫的话,很快就想从入门到舍弃了……

  综合写了一下对比和坑,放在知乎专栏里了八爪鱼采集器高级模式,有兴趣的可以去瞧瞧:

  浅谈一下近来使用八爪鱼采集器碰到的坑(还有对比其他采集软件和爬虫) - 知乎专栏

  编辑于 2017-12-17

  

  深圳视界信息技术*敏*感*词* CEO

  10 人赞成了该回答

  八爪鱼是工具,python是代码,八爪鱼的目标是使有须要采集网页的人都可以使用工具轻松达到目的,就这个目的来讲,八爪鱼就是要代替诸多公司自己爬虫工程师团队开发的python爬虫程序,我认为完全替代有点困难,总有些人就是一定要求自己开发的,这种就没办法了,但是从成本,效率,响应需求变化的能力,通用性,易用性,IP资源,防封能力,智能化程度,对使用人员的要求等等审视爬虫做的好不好的指标来看的话,八爪鱼目前所达到的技术和产品能力,一般的技术团队用python是难以达到的。

  发布于 2017-07-04

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线