优采云万能文章采集器v2.17.7.0更新日志(2020-4-8)

优采云 发布时间: 2021-08-25 03:09

  优采云万能文章采集器v2.17.7.0更新日志(2020-4-8)

  优采云万能文章采集器是一款简单易用的文章采集工具,用户只需输入关键词即可快速采集各大搜索引擎新闻源和网页pages ,您不必再通过网页查找文本了。 优采云万能文章采集器不仅具有采集速度快、操作简单的特点,文章采集器还能准确提取网页正文部分并保存为文章,并支持去标签、链接邮箱等格式化处理,将纯文本的结果展示给用户,免去用户二次文本处理的麻烦。

  

  使用教程1、点击“关键词采集文章”按钮

  

  2、选择搜索引擎并输入

  

  3、输入搜索词

  

  4、选择输出结果的保存目录和保存对象

  

  5、点击“开始采集”

  

  6、文章output

  

  软件功能1、可以准确提取网页正文部分并保存为文章

  2、支持标签、链接、邮件等的格式处理

  3、insert关键词function

  4、 可以插入可识别的标签或标点符号旁边

  5、识别英文空格插入

  

  更新日志优采云万能文章采集器v2.17.7.0 更新日志(2020-4-8)

  1、 新增正文过滤功能,可以屏蔽大部分不属于正文的内容;合并严格和标准的身体识别,加强身体识别能力(现在识别的身体没有父div标签,现在全部取自内部代码);增强提取一些故意伪装的网站标题的能力;其他更新。

  2、采集文章URL,加强对相对路径的处理,如../和../../等,本版本加强处理后,相对路径将完全转换进入绝对路径。将鼠标移到浏览器中的链接上可以看到相同的内容。

  3、修复了谷歌改动导致采集失败的问题。

  4、Fix 关键词采集文章列选择精确标签时,没有弹出输入问题(之前版本导致);根据URL采集文章列,添加和删除外码可选Options(之前默认开启);调试模式改为文章source;更新疑点描述;其他。

  5、修复微信采集失败的问题。

  6、Enhance paging采集 识别能力。

  7、添加了谷歌地址前缀指定,可以设置自己可以使用的谷歌域名。

  8、采集设置的正则替换支持使用单独的匹配和替换表达式。

  9、增强文本识别能力,提高识别准确率;增加对特殊编码响应的识别。

  10、为二次加载的图片添加了新的属性“原创”识别转换。

  11、外部文件更新谷歌翻译使用的域名;修复 Google tk 参数更改时翻译失败的问题。

  12、修复了系统原因导致百度网页无法采集的问题;增加了网址的#后缀部分会自动去除,会导致网页读取错误; 采集文章URL 添加左右插入选项;修复了之前版本导致的文本提取过滤的一些问题;其他更新。

  13、增强对一些使用跳转的网页的识别。

  14、将标题字数限制提高到100字以内,避免部分字数过长造成的问题;其他更新。

  优采云万能文章采集器2.15.8.0 更新日志(2017年3月24日)

  修复百度网页搜索时间设置无效,取消百度新闻时间设置(不再支持);

  微信采集增加了设置正文最少字数的支持(以前只有自动识别可以设置字数,但是微信内置了精准标签,所以不能设置字数,现在有可能);

  [文章View] 切换显示时自动刷新目录树;

  关键词采集正字符数不足时,补充提示设置的字符数

  特别说明

  解压密码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线