文章采集器(基于高精度识别识别算法的互联网文章采集器(图) )
优采云 发布时间: 2021-10-10 12:26)
优采云·Universal文章采集器(SMGod) 是一个基于高精度文本识别算法的互联网文章采集器。支持按关键词采集百度等搜索引擎新闻源()和泛页面(),支持采集指定网站栏目所有文章。
软件介绍
该算法由优采云自主研发。它可以从网页中提取正文部分,准确率通常可以达到95%。如果进一步设置最小字符数,采集的文章(正确性)的准确率可以达到99%。同时>
文章 标题也达到了 99% 的提取准确率。当然,当某些网页的布局格式混乱、不规则时,可能会降低准确性。
软件功能
文本提取算法有标准标签、严格标签和精确标签三种模式。在大多数情况下,标准模式和严格模式是相同的提取结果。以下是特殊情况:
标准模式:一般提取,大部分时候可以准确提取文本,但是一些特殊的页面会导致提取一些不必要的内容(但这种模式可以更好地识别文章页面类似于百度的经验)
严格模式:顾名思义,它比标准模式严格一点,可以在很大程度上避免将无关内容提取为正文。但是,对于百度体验页等特殊的细分页面(不是一般的
段落,但有多个独立的div段并带有格式),一般只能提取某一段落,而标准模式可以提取所有段落。
精确标签:不使用标准和严格模式时,可以精确指定目标正文的标签头。此模式仅适用于网络批处理。
所以可以根据实际情况切换模式。您可以使用本地批处理的读取网页正文功能来测试指定网页适合提取哪种模式。
软件说明
应用平台:WinXP、Win7、Win8、Win10、WinAll
软件截图