优采云采集器可以替换python采集器吗?
优采云 发布时间: 2020-08-07 12:16作为同时使用优采云采集器和爬虫编写器的非技术人员,我莫名其妙地喜欢自己技术的Internet操作. . . 让我说说我的感受.
优采云具有一些优势,例如较低的学习成本,可视化的流程和快速的采集系统. 可以直接导出excel文件并导出到数据库. 为了降低采集成本,云采集提供了10个节点,可以节省很多麻烦.
缺点是,尽管它看起来很简单,并且有一个更傻瓜式智能模型,但是只有那些使用它的人才知道陷阱. 我只是在自己的博客中写过有关此内容的信息,但老实说,我有太多经验,还没有解决.
首先,内部循环都是xpath元素定位. 如果使用简单的傻瓜式单击定位,则它会很僵化,并且在大量采集页面时很容易出错. 另外,使用此工具的人由于其方便性而拥有过多的新手. 有人整天问常见问题. 他们不知道页面结构,也不了解xpath. 它们很容易出现不完整的采集和无限翻页的情况.
但是优采云采集器的ajax加载,模拟移动页面,过滤广告,滚动到页面底部和其他功能被称为工件,可以通过一次检查来完成. 编写代码很麻烦,实现这些功能很麻烦.
优采云毕竟只是一个工具,自由度肯定会打败编程. 优点是方便,快捷和低成本.
优采云的判断力很弱,无法做出复杂的判断,也无法执行复杂的逻辑. 另外,只有企业版的Ucai Cloud才能解决验证码问题,普通版无法访问编码平台.
另一点是,没有ocr功能. 58.com和Ganji.com采集的电话号码均为图片格式. 可以使用开源图像识别库解决Python,并可以通过停靠对其进行识别.
此处更新:
我以前写的感觉是片面的,毕竟,在那个时代,我以自己的心情写了它. 经过一段时间的考虑之后,对数据采集的需求才是决定最终工具的因素. 如果我需要采集大量数据,则爬网程序不可避免,因为代码具有较高的自由度. 我认为优采云的目的不是要替换python,而是要实现每个人都可以使用的采集器的目标.
另一点是python易于学习,易于部署,开源且免费. 即使您只是学习scrapy,也可以解决一些问题,但是麻烦的是,必须通过编写或复制其他人的代码来实现某些工具中通过简单选择即可完成的功能. 如果您不是全职编写爬虫,那么我想从入门到放弃都将非常快.
全面介绍比较和凹坑,并将它们放入“知乎”列. 如果您有兴趣,可以查看一下:
使用优采云采集器(并比较其他采集软件和爬虫)谈论最近遇到的坑-了解专栏