优采云采集器:如何过滤列表中的前N个数据?
优采云 发布时间: 2021-08-15 20:13优采云采集器:如何过滤列表中的前N个数据?
优采云采集器是一款高效的网页信息采集软件,支持99%的网站数据采集,可以生成Excel表格、api数据库文件等内容,帮你管理网站*敏*感*词*,非常好用,快来下载吧。
软件功能
一键提取数据
简单易学,通过可视化界面,鼠标点击即可采集数据
快速高效
内置一套高速浏览器内核,加上HTTP引擎模式,实现快速采集data
适用于各种网站
采集 Internet 99% 网站,包括单页应用ajax加载等动态类型网站
功能介绍
向导模式
易于使用,只需单击鼠标即可自动生成
脚本定期运行
可按计划定期运行,无需人工
原装高速内核
自主研发的浏览器内核速度快,远超对手
智能识别
智能识别网页中的列表和表单结构(多选框下拉列表等)
广告拦截
自定义广告拦截模块,兼容AdblockPlus语法,可添加自定义规则
多数据导出
支持 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站 等
如何使用
第一步:输入采集URL
打开软件,新建一个任务,输入需要采集的网站地址。
第二步:智能分析,全程自动提取数据
进入第二步后优采云采集器自动智能分析网页并从中提取列表数据。
第三步:导出数据到表、数据库、网站等
运行任务,从采集导出数据到Csv、Excel和各种数据库,支持api导出。
常见问题
问:如何过滤列表中的前N个数据?
1. 有时候我们需要过滤采集到达的列表,比如过滤掉第一组数据(采集表的情况,过滤掉表列名)
2.在列表模式菜单中点击,设置列表xpath
问:如何抓取cookies获取cookies并手动设置?
1. 首先用谷歌浏览器打开你要采集的网站,然后登录。
2.然后按F12,会出现开发者工具,选择Network
3. 然后按 F5 刷新下一页并选择其中一个请求。
4.复制完成后,在优采云采集器编辑任务,进入第三步指定HTTP Header。
更新日志
3.0.3.1
2021/08/07
添加任务右键菜单图标
修复列表识别问题
优化瀑布滚动
优化点击深度功能
修复导出配置重命名问题
固定组定时任务包括所有子组任务
优化查看数据窗口的分页控制
其他细节修改
这个工具是微夏小编推荐的。如果您需要,请下载使用。