优采云采集器怎么样?勾选ocrocr
优采云 发布时间: 2021-08-09 06:46优采云采集器怎么样?勾选ocrocr
作为一个同时使用优采云采集器并写爬虫的非技术人员,莫名的喜欢一个自己思考技术的互联网运营。 . 说说我的感受。
优采云具有学习成本低、流程可视化、快速构建采集系统等优势。可以直接导出excel文件并导出到数据库。为了降低采集的成本,云采集提供了10个节点,也可以省去不少麻烦。
缺点是虽然看起来很简单,还有更傻的智能模型,但其中的陷阱只有使用过的人才知道。我只是在我的博客中写了这个,但说实话,我的经验太多了,我还没有整理出来。
首先,里面的循环都是xpath元素定位,如果用简单傻傻的点击定位,很死板,大量采集页面很容易出错。另外,使用这个工具的人,因为它的方便,新手太多。有些人整天问一些常见的问题。他们不知道页面的结构,也不了解 xpath。容易出现采集不全、无限翻页等问题。
但是优采云采集器的ajax加载、模拟移动页面、过滤广告、滚动到页面底部等功能都被称为神器,一个检查就可以搞定。写代码很麻烦,实现这些功能很费力。
优采云毕竟只是一个工具,自由度肯定会打败编程。优点是方便、快捷、成本低。
优采云judgment 引用弱,无法做出复杂的判断,也无法执行复杂的逻辑。还有优采云只有企业版可以解决验证码问题,普通版无法访问编码平台。
还有一点就是没有ocr功能。 和 Ganji采集 的电话号码均为图片格式。 Python可以用开源的图像识别库来解决。只需连接到识别即可。
此处更新:
之前写的感觉是片面的,毕竟是怀着那个时代的心情写的。经过一段时间的思考,数据采集的需求决定了最终要使用的工具。如果我需要大量的数据采集,爬虫肯定是不可避免的,因为代码有更高的自由度。我觉得优采云的目标不是取代python,而是实现采集器人人都能上手的目标。
另外一点是python易学易部署,开源免费。就算只学scrapy,也能解决一些问题,但麻烦的是,在一些工具中简单的选择就能完成的功能,只能通过编写或复制别人的代码来实现。如果你不是全职写一个爬虫,它会非常快。我只想从入门到放弃...
综合写了比较坑,放在知乎专栏里。有兴趣的可以看看: