网页文章采集工具(优采云万能文章采集器v2.17.7.0更新日志(2020-4-8))

优采云 发布时间: 2021-12-24 11:15

  网页文章采集工具(优采云万能文章采集器v2.17.7.0更新日志(2020-4-8))

  优采云Universal文章采集器是一款简单易用的工具文章采集,用户只需输入关键词即可快速< @采集各大搜索引擎的新闻来源和泛页不再需要翻页找文字。优采云Universal文章采集器不仅具有采集速度快、操作简单的特点,文章采集器还能准确提取身体部位保存为文章,支持标签、链接、邮件等格式处理,将纯文本的结果展示给用户,免去二次处理文本的麻烦。

  

  使用教程1、 点击“关键词采集文章”按钮

  

  2、选择搜索引擎并输入

  

  3、输入搜索词

  

  4、选择输出结果的存储目录和对象

  

  5、点击“开始采集”

  

  6、文章 输出

  

  软件功能1、可以准确提取网页正文部分并保存为文章

  2、支持标签、链接、邮件等格式处理。

  3、插入关键词函数

  4、可以插入到识别标签或标点符号旁边

  5、识别英文空格的插入

  

  更新日志优采云万能文章采集器 v2.17.7.0 更新日志(2020-4-8)

  1、 新增正文过滤功能,可以屏蔽大部分不属于正文的内容;合并严格和标准的身体识别,加强身体识别能力(现在识别的身体没有父div标签,全部取自内码);增强提取一些故意伪装的网站标题的能力;其他更新。

  2、采集文章URL,加强对相对路径的处理,如../、../../等。本版本加强处理后,相对路径会完全转换为绝对路径,与浏览器中将鼠标移到链接上时看到的路径相同。

  3、修复Google更改导致采集失败的问题。

  4、修复关键词采集文章列中选择精确标签时没有弹出输入的问题(上一版本导致);根据网址采集文章栏增加了删除外码的可选选项(之前默认开启);调试模式改为文章源码;更新疑点描述;其他。

  5、修复微信采集失败问题。

  6、增强分页采集识别能力。

  7、添加谷歌地址前缀指定,可以设置自己可以使用的谷歌域名。

  8、采集 正则替换集支持使用单独的匹配和替换表达式。

  9、增强文本识别能力,识别准确率得到提升;增加对特殊编码响应的识别。

  10、二次加载图片新增属性“原创”识别转换。

  11、 外部文件更新谷歌翻译使用的域名;修复 Google tk 参数改变时翻译失败的问题。

<p>12、修复部分情况下系统无法重定向网址导致百度网页无法采集的问题;增加了自动去除的网址的#后缀部分,会导致网页读取错误;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线