最新内容采集与信息发布的数据处理软件-优采云网页采集器
优采云 发布时间: 2021-06-16 19:22更新时间:2017-01-08 11:58
快速采集一些网页的信息,你总是需要各种软件,本站现在可以免费为你带来最新的内容采集和信息发布。数据处理软件--优采云网站采集器! 优采云页采集器Feature 1:支持手动单页模式,指定URL采集
快速采集一些网页的信息,你总是需要各种软件,本站现在可以免费为你带来最新的内容采集和信息发布。数据处理软件--优采云网站采集器!
优采云Webpage采集器Features
1:支持手动单页模式,指定URL采集content,采集content可以在编辑器中排版和修改。
2:支持从列表页面中提取URL然后采集,可以提取列表页面的相关内容。
3:支持(无限制)从内容页面衍生的多级页面爬取(多级页面支持分页)
4:同时支持多任务和多线程采集不同的目标页面信息
5:支持COOKIE、UserAgent等自定义头信息。
6:采集每个字段内容可以关联和组合字段内容,多种字符串后处理方式可选
7:支持图片本地化,添加LOGO水印,支持图片本地化命名格式
8:内置数据库,方便查看数据功能
9:关键词自动分词
10:同义词替换,自定义同义词词典
11:关键词内链功能,可自定义关键词词库
优采云页采集器FAQ
网页出现乱码怎么办?
在设置中选择对应的网页编码。
如何添加任务?
单击任务栏,右键单击并选择菜单。
如何发帖到 dedecms?
将dedecms界面放在网站子目dede下软件的release界面下
优采云页采集器更新日志
1、内容提取最多支持10级【参数】循环提取,适用于(论坛问答回复采集头像、用户名、发布时间、内容)
2、add 关键词自动分词
3、增加同义词替换,可自定义同义词词典
4、增加关键词内链功能,可以自定义关键词词库,可以限制替换频率。 (也可以解决帝国IMG的bug,A元素嵌套替换)
5、添加定时任务功能
6、Download附件支持COOKIE登录下载
7、Publishing 规则支持使用全局标签功能,比如帝国目录newspath可以使用{dd:date yyyymmdd}
8、增强的规则导入导出功能。
9、添加PHP脚本扩展(测试中)
10、可以指定单个采集内容网址的最大数量