最新版:优采云网页采集器(优采云采集器)20170105 官网免费版
优采云 发布时间: 2022-12-05 23:18最新版:优采云网页采集器(优采云采集器)20170105 官网免费版
快点采集网页上的一些资料,你总是需要各种软件,本站现在可以免费为你带来最新的内容采集和资料发布的数据处理软件--优采云网页采集器!
优采云网页采集器功能
1:支持手动单页模式,指定URL采集内容,采集内容可以在编辑器中编辑。
2:提取列表页的URL后,然后采集,就可以提取列表页的相关内容了。
3: support (unlimited) multi-level page crawling derived from content pages(多级页面支持分页)
4:同时支持多任务和多线程采集不同的目标页面信息
5:支持自定义COOKIE、UserAgent等Header头信息。
6:采集每个字段内容可以关联组合字段内容,多种字符串后处理方式可选
7:支持图片本地化,添加LOGO水印,支持图片本地化命名格式
8:自带数据库方便查看数据功能
9:关键词自动分词
10:同义词替换,可以自定义同义词词库
11:关键词内链功能,可以自定义关键词词库
优采云网页采集器常见问题解答
网页出现乱码怎么办?
在设置中选择相应的网页编码。
如何添加任务?
单击任务栏,右键单击并选择菜单。
如何发布到dedecms?
将dedecms界面放在软件中发布界面下网站子项dede下
优采云网页采集器更新日志
1、内容提取支持最多10级[参数]循环提取,适用于(论坛问答回复采集头像、用户名、发布时间、内容)
2.添加关键词自动分词
3.增加同义词替换,自定义同义词词库
4、新增关键词内链功能,可自定义关键词词库,限制替换频率。(并且可以解决英制IMG和A元素嵌套替换的BUG)
5.增加定时任务功能
6、下载附件支持使用COOKIE登录下载
7.发布规则支持使用全局标签功能如帝国目录newspath可以使用{dd:date yyyymmdd}
8.增强规则导入导出功能。
9.添加PHP脚本扩展(测试中)
10. 可以指定单个采集的内容URL的最大数量
最新版:优采云采集器 v3.0.3.6官网版
优采云采集器官网版是一款简单易用的采集99% 采集工具,智能分析,可视化界面,无需学习编程,即点即用点击界面、自动生成采集脚本等优势让您轻松建站!通用网页采集软件,可以自动下载采集互联网上的绝大部分网站数据,包括网页表格数据、文档、图片等各种形式的文件到本地电脑分批次。可以定时运行,自动发布,增量更新采集,完全实现自动化运行,无需人工干预。有需要的朋友快来下载吧。
优采云采集器官网版功能
1、一键式数据提取:简单易学,通过可视化界面,点击鼠标即可抓取数据。
2、快速高效:内置高速浏览器内核,配合HTTP引擎模式,实现快速采集数据。
3、适用于各类网站:能够采集99%的互联网网站,包括单页应用、Ajax加载等动态类型网站。
4、导出数据类型丰富,采集的数据可以导出到Csv、Excel和各种数据库,支持API导出。
优采云采集器官网版功能
1.向导模式:简单易用,鼠标点击即可轻松自动生成;
2、脚本定时运行:可按计划定时运行,无需人工操作;
3、独创高速内核:自研浏览器内核,速度快,远超竞品;
4、智能识别:可智能识别网页中的列表和表单结构(多选框下拉列表等);
5.广告拦截:自定义广告拦截模块,兼容AdblockPlus语法,可添加自定义规则;
6、多种数据导出:支持Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等。
优采云采集器官网版安装教程
第一步:打开下载的安装包,选择直接运行。
第二步:收到相关条款后,运行安装程序PashanhuV2Setup.exe。安装
第三步:然后一直点下一步直到完成。
第四步:安装完成后,可以看到优采云采集器V2的主界面
优采云采集器官网版教程
1、如何采集手机版网页的数据?
一般一个网站有电脑版网页和手机版网页。如果电脑版(PC)网页的反爬虫非常严格,我们可以尝试爬取移动端网页。
①选择新建编辑任务;
②在新建的【编辑任务】中,选择【第3步,设置】;
③将UA(浏览器标识)设置为“手机”。
2、如何手动选择列表数据(自动识别失败时)
在采集列表页面,如果列表自动识别失败,或者识别到的数据不是我们想的数据,那么我们需要手动选择列表数据。
如何手动选择列表数据?
① 点击【全部清除】清除已有字段。
②点击菜单栏中的【列表数据】,选择【选择列表】
③用鼠标单击列表中的任意元素。
④ 单击列表中另一行中的相似元素。
通常情况下,采集器此时会自动枚举列表中的所有字段。我们可以对结果进行一些修改。
如果没有列出字段,我们需要手动添加字段。单击【添加字段】,然后单击列表中的元素数据。
3. 采集文章鼠标无法选中文本中的全部内容怎么办?
一般情况下,在优采云采集器中,用鼠标点击选择要爬取的内容。但在某些情况下,比如当你想截取一个文章的完整内容时,当内容很长时,有时鼠标很难定位。
①我们可以通过在网页上右击选择【审查元素】来定位内容。
②点击【向上】按钮展开选中的内容。
③当扩展到我们的全部内容时,选择【XPath】并复制。
④修改字段的XPath,粘贴刚才复制的XPath,确定。
⑤最后修改value属性,如果要HTML就用InnerHTML或者OuterHTML。
优采云采集器官网版常见问题
Q:如何抓包获取cookie并手动设置?
1. 首先,用谷歌浏览器打开网站到采集,然后登录。
2.然后按F12,会出现开发者工具,选择Network
3. 然后按F5,刷新下一页,选择其中一个请求。
4、复制完成后,在优采云采集器中,编辑任务,进入第三步,指定HTTP Header。
Q:如何过滤列表中的前N条数据?
1、有时候我们需要对采集接收到的列表进行过滤,比如过滤掉第一组数据(在采集表中,过滤掉表列名)
2.在列表模式菜单中点击设置列表xpath