文章采集器免费版(优采云万能文章采集器v2.17.7.0更新日志(2020-4-8))
优采云 发布时间: 2022-03-13 18:08文章采集器免费版(优采云万能文章采集器v2.17.7.0更新日志(2020-4-8))
优采云万能文章采集器是一个简单易用的文章采集工具,用户只需输入关键词即可快速采集 主要搜索引擎的新闻提要和泛页面,无需再四处翻找文字。优采云万能文章采集器不仅具有采集速度快、操作简单的特点,文章采集器还可以准确提取主体网页另存为文章,支持去标签、链接、email等格式处理,将纯文本的结果展示给用户,省去用户二次文本处理的麻烦。
使用教程1、点击“关键词采集文章”按钮
2、选择搜索引擎并输入
3、输入搜索词
4、选择输出结果的存储目录和存储对象
5、点击“开始采集”
6、文章输出
软件功能1、可以准确提取网页的文字部分并保存为文章
2、支持去标签、链接、邮件等格式。
3、插入关键词特征
4、标识的标签或标点插入到旁边
5、标识英文空格间距插入
更新日志优采云通用文章采集器 v2.17.7.0 更新日志(2020-4-8)
1、新增文字过滤功能,可以屏蔽大部分不属于文字的内容;结合严格规范的文本识别,加强文本识别能力(现在识别的文本没有父div标签,都取内码);增强提取一些特别伪装的网站标题的能力;其他更新。
2、采集文章URL,加强对相对路径的处理,如../和../../等。经过本版本加强处理后,相对路径将完全转换为绝对路径与您在浏览器中将鼠标移动到链接上时看到的路径相同。
3、修复了 Google 更改导致 采集 失败的问题。
4、修复关键词采集文章栏选择精确标签时输入不弹出的问题(上个版本造成的);根据 URL采集文章 添加了一个可选的选项,用于删除列中的外部代码(之前默认启用);将调试模式更改为 文章 源;更新疑点说明;其他。
5、修复微信失败采集。
6、增强的分页采集 识别能力。
7、添加谷歌地址前缀指定,可以设置自己可以使用的谷歌域名。
8、采集 设置的正则替换支持使用分隔多个匹配和替换表达式。
9、增强文本识别能力,提高识别准确率;增加对特殊编码响应的识别。
10、为二次加载图片新增属性“original”标识转换。
11、用于更新谷歌翻译使用的域名的外部文件;修复更改 Google tk 参数时翻译失败的问题。
12、修复部分情况下由于系统原因无法跳转到网址,导致百度网页无法采集的问题;添加了自动删除的URL的#后缀部分,这会导致网页阅读错误;采集文章为 URL 添加了左右插入选项;修复了之前版本导致的文本提取过滤的一些问题;其他更新。
13、增强了对部分使用跳转的网页的识别。
14、将标题字数限制提高到最大100字,避免字数过长带来的一些问题;其他更新。
优采云通用文章采集器2.15.8.0更新日志(2017年3月24日)
修复百度网页搜索时间设置失效,取消百度新闻时间设置(不再支持);
微信采集时新增支持设置文字最小字数(字数只能设置自动识别,但微信内置精准标签,无法设置字数,但现在有可能);
[文章View] 增加切换显示时自动刷新目录树;
关键词采集文本字符数不足时,补充提示中设置的字符值
特别说明
提取密码: