采集器采集(优采云问:如何过滤列表中的前N个数据?)
优采云 发布时间: 2022-01-11 02:10采集器采集(优采云问:如何过滤列表中的前N个数据?)
优采云采集器V2是一款高效的网页信息采集软件,支持99%的网站data采集,可以生成Excel表格,api数据库文件等内容,帮你管理网站数据信息,如果需要采集指定网页数据,可以使用本软件。
软件功能
1、一键提取数据
简单易学,通过可视化界面,鼠标点击即可抓取数据。
2、快速高效
内置一套高速浏览器内核,配合HTTP引擎模式,实现快速采集数据。
3、适用于各类网站
能够采集99%的互联网网站,包括单页应用Ajax加载等动态类型网站。
功能介绍
1、向导模式
易于使用,只需单击鼠标即可轻松自动生成。
2、脚本定期运行
无需人工即可按计划运行。
3、原创高速内核
自主研发的浏览器内核速度非常快,远超竞争对手。
4、智能识别
可智能识别网页中的列表和表单结构(多选框下拉列表等)。
5、广告拦截
自定义广告拦截模块,兼容AdblockPlus语法,可添加自定义规则。
6、多重数据导出
支持Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等
如何使用
第 1 步:输入 采集网址
打开软件,新建任务,输入需要采集的网站的地址。
第二步:智能分析,全程自动数据提取
进入第二步后,优采云采集器自动智能分析网页并从中提取列表数据。
第 3 步:将数据导出到表、数据库、网站等。
运行任务,将采集中的数据导出到Csv、Excel等各种数据库,支持api导出。
常见问题
Q:如何过滤列表中的前N个数据?
1.有时我们需要对采集接收到的列表进行过滤,比如过滤掉第一组数据(在采集表中,过滤掉表列名)。
2.点击列表模式菜单,设置列表xpath。
Q:如何抓包获取cookie并手动设置?
1.首先用谷歌浏览器打开网站为采集,然后登录。
2.然后按F12,会出现开发者工具,选择Network。
3.然后按F5刷新下一页并选择其中一个请求。
4.复制完成后,在优采云采集器中,编辑任务,进入第三步,指定HTTP Header。
更新日志
1.添加插件功能。
2.添加导出txt(一个文件保存为一个文件)。
3.多值连接器支持换行符。
4.为数据处理修改了文本映射(支持查找和替换)。
5.修复了登录时的 DNS 问题。
6.修复了图片下载问题。
7.修复一些 json 问题。