云端采集器(智能防封优采云采集可根据模板简单设置参数(组图))
优采云 发布时间: 2022-01-29 09:16云端采集器(智能防封优采云采集可根据模板简单设置参数(组图))
优采云采集器软件免费试用数据采集软件功能强大简单采集软件支持100多种网站数据源,智能代理IP< @采集免防封,5000台云服务器支持采集24小时,全自动数据采集格式支持定时功能。
它不仅简单易用,而且功能强大:点击、登录、翻页,甚至识别验证码。当网页出现错误,或者多组模板完全不同时,可以根据不同的情况进行不同的处理。
采集 任务配置完成后,就可以关闭它了,任务就可以在云端执行了。大量企业云可以24*7不间断运行。您不必担心IP阻塞或网络中断,您可以立即采集大量数据。
不同于市面上其他的采集软件,优采云采集器没有复杂的采集规则设置,一个采集鼠标点几下就能成功配置任务,体验得到了简化,工作效率大大提高。用一句话来形容优采云采集器,即:追本溯源,一切行动回归人性。"
软件功能
简单采集
简单的采集模式,内置数百个主流网站数据源,如京东、天猫、大众点评等流行的采集网站,只需参考模板只需简单设置参数,即可快速获取公共数据网站。
智能防封
优采云采集根据不同网站,自定义配置结合浏览器识别(UA)、自动代理IP、浏览器cookie、验证码破解等功能可以在大部分网站@实现突破>的反采集策略。
无限层采集
很多主流新闻和电商网站s包括一级产品listing页面、二级产品详情页、三级review详情页;无论网站有多少层级,优采云都可以拥有无限层级的采集数据,满足各种业务采集的需求。
支持网站登录后采集
优采云内置采集登录模块,只需要配置目标网站的账号密码,即可使用该模块采集登录-在数据中;同时,优采云还带有采集cookie自定义功能,首次登录后可以自动记住cookie,免去多次输入密码的繁琐,支持更多采集网站 的@>。
云采集
云采集支持5000多台云服务器,7*24小时不间断运行,可实现定时采集,无需人员值守,灵活贴合业务场景,助您提升采集@>效率,保证数据的及时性。
API接口
通过优采云 API,可以轻松获取优采云任务信息和采集获取的数据,灵活调度任务,如远程控制任务启动和停止,高效实现数据采集@> 和归档 . 基于强大的API系统,还可以与公司内部的各种管理平台无缝对接,实现各种业务自动化。
自定义采集
根据不同用户的采集需求,优采云可以提供自定义模式自动生成爬虫,可以批量准确识别各种网页元素,以及翻页、下拉、ajax 、页面滚动、条件判断等多种功能,支持复杂的网站采集网页结构,满足多种采集应用场景。
便捷的计时功能
只需简单的点击几下设置,即可实现对采集任务的定时控制,无论是单个采集定时设置,还是预设日或周、月定时采集,您可以同时自由设置多个任务,根据需要进行选择时间的多种组合,灵活部署自己的采集任务。
全自动数据格式化
优采云内置强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集全自动处理过程中,无需人工干预,即可获得所需的格式数据。
变更日志:
主要体验改进
优化网页列表数据自动识别,识别率提升至90%以上
Bug修复
解决自定义配置中循环输入文本中循环项重复的问题
解决自定义配置的当前页面数据预览有时会多出一列空数据的问题
解决自定义配置中自动识别和生成采集进程有时不正确的问题
解决自定义配置的当前页面数据预览中拖动更改字段顺序后修改字段名错误的问题
解决本地采集部分网页cookie不生效的问题
解决自定义配置中自动识别产生采集字段有空格问题
解决本地采集部分网站无法滚动加载数据的问题
解决本地采集中某些情况下数据格式不正确的问题
解决自定义配置提取数据配置中修改字段即使不应用也会生效的问题
解决自定义配置中部分网页自动识别有时卡住的问题
解决有时修改字段名会导致自定义配置自动识别的数据预览出现黑屏的问题
解决账户过期时间显示在主界面左侧的问题
解决自定义配置中某些操作会导致流程图杂乱的问题
优采云采集器如何使用
1、打开优采云采集器的客户端,登录软件后新建任务,打开网站你想采集的地址。这是我自己对原创设计手稿采集的演示。
2、进入设计工作流链接,在界面浏览器中输入你要采集的URL,点击打开,就可以看到网站你要采集的界面,由于这个URL中有多个页面的内容需要采集,所以我们在设置采集规则的时候,可以先建立一个翻页循环,先在带有鼠标,然后在弹出的任务对话框中,选择高级选项中的【循环点击下一页】,软件会自动创建一个翻页循环。
3、创建一个翻页循环,就是当前页面的内容采集,我要采集图片的网址,随便选一张图片,然后点击,软件会自动弹出一个对话框,先创建一个循环的元素列表。抓取当前页面的所有元素后,创建循环列表。
4、设置要抓取的内容,在元素循环列表中选择任意一个元素,在浏览器中找到该元素对应的图片,点击弹出对话框,选择【抓取此图片地址element]作为Field 1,同时为了方便识别,我也抓取了field 2作为图片标题名称,设置原理和图片地址一样。
5、勾选,翻页循环框应该嵌套在产品循环框内,也就是说在翻页之前先抓取当前整页的图片URL。
6、设置好执行计划后,就可以启动采集了。如果单击采集,请单击[完成]步骤下的[检查任务]以启动任务。采集完成后可以直接下载为EXCEL文件。
7、将网址转换为图片,这里使用优采云图片转换工具,导入EXCEL后即可自动等待系统下载图片!