优采云万能文章采集器v2.17.7.0更新日志(2020-4-8)
优采云 发布时间: 2021-08-25 03:09优采云万能文章采集器v2.17.7.0更新日志(2020-4-8)
优采云万能文章采集器是一款简单易用的文章采集工具,用户只需输入关键词即可快速采集各大搜索引擎新闻源和网页pages ,您不必再通过网页查找文本了。 优采云万能文章采集器不仅具有采集速度快、操作简单的特点,文章采集器还能准确提取网页正文部分并保存为文章,并支持去标签、链接邮箱等格式化处理,将纯文本的结果展示给用户,免去用户二次文本处理的麻烦。
使用教程1、点击“关键词采集文章”按钮
2、选择搜索引擎并输入
3、输入搜索词
4、选择输出结果的保存目录和保存对象
5、点击“开始采集”
6、文章output
软件功能1、可以准确提取网页正文部分并保存为文章
2、支持标签、链接、邮件等的格式处理
3、insert关键词function
4、 可以插入可识别的标签或标点符号旁边
5、识别英文空格插入
更新日志优采云万能文章采集器v2.17.7.0 更新日志(2020-4-8)
1、 新增正文过滤功能,可以屏蔽大部分不属于正文的内容;合并严格和标准的身体识别,加强身体识别能力(现在识别的身体没有父div标签,现在全部取自内部代码);增强提取一些故意伪装的网站标题的能力;其他更新。
2、采集文章URL,加强对相对路径的处理,如../和../../等,本版本加强处理后,相对路径将完全转换进入绝对路径。将鼠标移到浏览器中的链接上可以看到相同的内容。
3、修复了谷歌改动导致采集失败的问题。
4、Fix 关键词采集文章列选择精确标签时,没有弹出输入问题(之前版本导致);根据URL采集文章列,添加和删除外码可选Options(之前默认开启);调试模式改为文章source;更新疑点描述;其他。
5、修复微信采集失败的问题。
6、Enhance paging采集 识别能力。
7、添加了谷歌地址前缀指定,可以设置自己可以使用的谷歌域名。
8、采集设置的正则替换支持使用单独的匹配和替换表达式。
9、增强文本识别能力,提高识别准确率;增加对特殊编码响应的识别。
10、为二次加载的图片添加了新的属性“原创”识别转换。
11、外部文件更新谷歌翻译使用的域名;修复 Google tk 参数更改时翻译失败的问题。
12、修复了系统原因导致百度网页无法采集的问题;增加了网址的#后缀部分会自动去除,会导致网页读取错误; 采集文章URL 添加左右插入选项;修复了之前版本导致的文本提取过滤的一些问题;其他更新。
13、增强对一些使用跳转的网页的识别。
14、将标题字数限制提高到100字以内,避免部分字数过长造成的问题;其他更新。
优采云万能文章采集器2.15.8.0 更新日志(2017年3月24日)
修复百度网页搜索时间设置无效,取消百度新闻时间设置(不再支持);
微信采集增加了设置正文最少字数的支持(以前只有自动识别可以设置字数,但是微信内置了精准标签,所以不能设置字数,现在有可能);
[文章View] 切换显示时自动刷新目录树;
关键词采集正字符数不足时,补充提示设置的字符数
特别说明
解压密码: