Gooseeker,优采云和优采云的优缺点是什么?
优采云 发布时间: 2020-08-07 01:05作为同时使用优采云采集器和爬虫编写器的非技术人员,我莫名其妙地喜欢自己技术的Internet操作. . . 让我说说我的感受.
优采云具有一些优势,例如较低的学习成本,可视化的流程和快速的采集系统. 可以直接导出excel文件并导出到数据库. 为了降低采集成本,云采集提供了10个节点,可以节省很多麻烦.
缺点是,尽管它看起来很简单,并且有一个更傻瓜式智能模型,但是只有那些使用它的人才知道陷阱. 我只是在自己的博客中写过有关此内容的信息,但老实说,我有太多经验,还没有解决.
首先,内部循环都是xpath元素定位. 如果使用简单的傻瓜式单击定位,则它会很僵化,并且在大量采集页面时很容易出错. 另外,使用此工具的人由于其方便性而拥有过多的新手. 有人整天问常见问题. 他们不知道页面结构,也不了解xpath. 它们很容易出现不完整的采集和无限翻页的情况.
但是优采云采集器的ajax加载,模拟移动页面,过滤广告,滚动到页面底部和其他功能被称为工件,可以通过一次检查来完成. 编写代码很麻烦,实现这些功能很麻烦.
优采云毕竟只是一个工具,自由度肯定会打败编程. 优点是方便,快捷和低成本.
优采云的判断力很弱,无法做出复杂的判断,也无法执行复杂的逻辑. 另外,只有企业版的Ucai Cloud才能解决验证码问题,普通版无法访问编码平台.
另一点是,没有ocr功能. 58.com和Ganji.com采集的电话号码均为图片格式. 可以使用开源图像识别库解决Python,并可以通过停靠对其进行识别.
除非您有很高的技术要求,否则我认为优采云采集器非常易于使用. 它比优采云采集器更好. 尽管效率不高,但使用它比研究和研究数据包更好. 这样可以节省麻烦. 我很好,我还将回答有关优采云小组中规则汇编的一些问题.
优采云采集器必须分析高级版本的json数据,这确实很烦人. 优采云效率较低,但可采集的范围很广. 但是,优采云采集器具有58个相同城市的插件. .
————————————————————————————————————————
更新:
后来,我写了几篇文章进行详细分析:
我的博客:
我的专栏: 怪胎兔子的巢
文章: 谈论最近使用优采云采集器时遇到的陷阱(并与其他采集软件和爬虫进行比较)
我还计划在优采云和优采云之间进行比较,这正在调查中.