软件特色简易采集模式内置上百种主流网站(组图)

优采云 发布时间: 2021-08-27 05:14

  软件特色简易采集模式内置上百种主流网站(组图)

  优采云采集器software 是免费试用数据采集software 强大易用采集software 支持超过100 种网站 数据源,智能代理IP采集 避免反阻塞,通过5000云服务器支持云采集24小时不间断,全自动数据采集格式支持定时功能。

  优采云采集器官方版本介绍

  优采云采集器可以采集获取任何网页信息必备的采集工具。它彻底改变了我对爬虫和采集器的理解,让网络数据采集前所未有的简单,如果你正在寻找一款好用的采集软件,优采云绝对是最好的选择。

  

  不仅使用方便,而且功能强大:点击、登录、翻页,甚至识别验证码。当网页出现错误,或者多套模板完全不同的时候,也可以根据不同的情况做不同的处理。

  配置完采集任务后,就可以关闭了。任务可以在云端执行。大量企业云可以24*7不间断运行。您不必担心 IP 被封锁或网络中断。依然可以瞬间采集大量数据。

  与市面上其他采集软件不同,优采云采集器没有复杂的采集规则设置。只需点击几下鼠标即可成功配置一个采集任务,使体验极简,大大提高了工作效率。用一句话来形容优采云采集器,就是:追根溯源,一切行为回归人性。 "

  软件功能

  简单采集

  简单采集模式内置了数百个主流网站数据源,如京东、天猫、大众点评等流行的采集网站。只需参考模板设置参数即可快速获取网站。 @公共数据。

  智能防堵

  优采云采集可以针对不同的网站自定义浏览器识别(UA)、自动代理IP、浏览器Cookie、验证码破解等功能的组合,实现网站绝大多数的突破反采集策略。

  无限关卡采集

  众多主流新闻和电商网站,收录一级商品列表页、二级商品详情页、三级评论详情页;不管网站有多少层,优采云所有采集数据都可以无限,满足采集各种业务需求。

  登录后支持网站采集

  优采云内置采集登录模块,只需配置目标网站的账号密码,即可使用该模块采集登录数据;同时优采云还有采集Cookie自定义功能,首次登录后可以自动记住cookie,免去多次输入密码的繁琐,支持更多网站采集。

  云采集

  云采集,5000多台云服务器支持,7*24小时不间断运行,可实现定时采集,无人值守,灵活适配业务场景,助您提升采集效率,并保护数据的及时性。

  API 接口

  通过优采云API,可以轻松获取采集接收到的优采云任务信息和数据,灵活调度任务,如远程控制任务启停,高效实现数据采集和归档。基于强大的API系统,还可以与公司各种内部管理平台无缝对接,实现各种业务自动化。

  自定义采集

  根据采集不同用户的需求,优采云可以提供自定义模式自动生成爬虫,可以批量准确识别各种网页元素,以及翻页、下拉、ajax、页面滚动、条件判断等。此类功能支持不同网页结构的复杂网站采集,满足多种采集应用场景。

  方便的定时功能

  只需简单几步,点击设置即可实现采集任务的定时控制,无论是单个采集定时设置,还是预设日或周、月定时采集。同时自由设置多个任务,根据需要进行多种选择时间组合,灵活部署自己的采集任务。

  自动数据格式化

  优采云内置强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等诸*敏*感*词*,采集该过程是全自动的,无需人工干预即可获取所需格式的数据。

  更新日志:

  主要体验改进

  优化网页列表数据自动识别,识别率提升至90%以上

  错误修复

  解决自定义配置中循环输入文本重复循环项的问题

  解决自定义配置当前页面数据预览中多出一列空数据的问题。

  解决自定义配置中自动识别生成的采集进程有时不正确的问题。

  解决自定义配置当前页面数据预览中拖拽改变字段顺序后修改字段名错误的问题。

  解决本地采集部分网页cookies不生效问题

  解决自定义配置中采集字段自动识别有空格的问题

  解决网站本地采集中部分无法滚动加载数据的问题

  解决本地采集部分情况下数据格式不正确的问题

  解决自定义配置提取数据配置中修改字段无需申请即可生效的问题

  解决自定义配置中部分网页自动识别有时卡住的问题

  解决自定义配置自动识别数据预览中修改字段名有时字段名为空的问题。

  解决主界面左侧账户过期时间显示问题

  解决自定义配置中某些操作会导致流程图混乱的问题

  优采云采集器如何使用

  1、打开优采云采集器的客户端,登录软件后新建一个任务,打开你想要的网站地址采集。下面是原创设计脚本的采集我自己的演示。

  

  2、进入设计工作流程链接,在界面浏览器中输入你想要的网址采集,点击打开,可以看到你想要的网站界面采集,因为这个网址存在多页内容需要采集。当我们设置采集规则时,我们可以先建立一个翻页循环,先用鼠标选择页面上的【下一页】按钮,在弹出的任务对话框中选择高级选项点击【循环点击】 Next Page],软件会自动建立一个翻页循环。

  

  3、建好翻页循环好,就是当前页面采集的内容,我要采集图片的网址,选择图片,点击,软件会自动弹出弹出一个对话框,首先创建一个循环元素列表。捕获当前页面的所有元素后,创建循环列表。

  4、 设置要抓取的内容,在元素循环列表中选择任意一个元素,在浏览器中找到该元素对应的图片,点击弹出对话框,选择【抓取该元素的图片地址】 ] 是field 1,为了方便识别,我也抓了field 2作为图片标题的名称。设置原理同图片地址。

  

  5、检查翻页循环框是否应该将产品循环框嵌套在里面,这意味着在翻页之前先捕获当前的整页图片URL。

  6、设置执行计划后,即可启动采集。如果点击采集,直接点击【完成】步骤下的【检查任务】开始运行任务。 采集完成后可以直接下载成EXCEL文件。

  7、将URL转成图片,这里使用优采云图片转换工具,导入EXCEL后,可以自动等待系统下载图片!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线