采集文章软件(基于优采云自主研发的高精度提取正文算法采集文章)
优采云 发布时间: 2021-11-29 08:08采集文章软件(基于优采云自主研发的高精度提取正文算法采集文章)
基于优采云自主研发的高精度文本提取算法采集互联网文章
优采云基于本软件制作的高精度文本识别算法的互联网文章采集器。支持按关键词采集百度等搜索引擎新闻源()和泛页面(),支持采集指定网站栏目所有文章。
【什么是高精度文本识别算法】
该算法由优采云自主研发。它可以从网页中提取正文部分,准确率通常可以达到95%。如果进一步设置最小字符数,采集的文章(正确性)的准确率可以达到99%。同时,文章标题也达到了99%的提取准确率。当然,当一些网页的布局格式混乱、不规则时,可能会降低准确性。
【文本提取方式】
文本提取算法有标准标签、严格标签和精确标签三种模式。在大多数情况下,标准模式和严格模式是相同的提取结果。以下是特殊情况:
标准模式:一般提取,大部分时候可以准确提取文本,但是一些特殊的页面会导致提取一些不必要的内容(但这种模式可以更好地识别文章页面类似于百度的经验)
严格模式:顾名思义,它比标准模式严格一点,可以在很大程度上避免无关内容被提取为正文。id="info_1" 但是对于百度体验页等特殊的segment页面(不是一般的段落,而是更多格式化的页面)一个单独的div段),一般只能提取某个segment,而标准模式可以提取所有segment。
精确标签:不使用标准和严格模式时,可以精确指定目标正文的标签头。这种模式只适用于网络批处理。
所以可以根据实际情况切换模式。您可以使用本地批处理的读取网页正文功能来测试指定网页适合提取哪种模式。
[采集时的处理选项]
采集 可以在翻译、过滤、搜索词的同时进行处理。对于那些已经采集好的文章,可以使用“本地批处理”。
翻译功能是将中文翻译成英文再翻译回中文,也产生了伪原创的效果。支持原创格式翻译,即不改变文章的原创标签结构和排版格式。
[采集目标是网址]
您可以在 URL 模板中插入 #URL#、#title# 以组合引用
【分页采集和相对路径转绝对路径】
勾选“Auto 采集 Paging”合并页面文章采集,编辑框设置为最大采集页数。建议设置一个有限的值,比如10页,避免分页过多时采集耗时,组合起来的文章体积庞大。如果需要采集所有页面,可以设置为0。
并且文章中的所有相对路径都会自动转换为绝对路径,可以保证图片等的正常显示。
【多线程】
支持多线程高速采集网页。可以根据网速来确定。Telecom 2m可以有5个线程,Telecom 4m可以有10个线程,依此类推,但需要适当设置。过多的设置可能会严重影响采集的效率,甚至影响系统的效率。如果采集正在运行其他占用流量的软件,比如在线视频播放,可以适当减少线程数。
【文章标题和文章内容重复的处理】
程序可以智能判断过滤重复项文章
当采集收到的文章的标题(文件名)与本地保存的文章的标题相同时,优采云会先判断两者的相似度文章 ,当相似度大于60%时,判断优采云相同文章,然后比较两个文章的文字量,自动使用文章 用更多文本覆盖输出到相同的文件名。这种世代情况加起来不及世代数。
当相似度小于60%时,判断优采云为不同文章,标题会自动重命名(标题末尾随机取3到5个字母)并保存到文件中.
[文章快速过滤]
虽然优采云研究了一个非常准确的人体提取算法,但是提取错误是不可避免的。这些错误主要是:目标页面的主体是在线视频,或者主体内容太短,无法形成主体特征。因此,可以通过设置最终结果中的字数来提高准确率(在“最小文本字符数”参数中,这个字数是程序去除标签、行和空格后的纯文本字数从正文)。
而文章快速过滤器是为了快速查看采集好的文章,方便判断和删除文章提取错误的文字。同时也方便了基于网络信息采集的目的需要进行的提炼过程。
[生成文章数量可变的问题]
百度和搜搜默认每页100条结果,谷歌每页默认10条结果。
一些网站访问速度超时(尤其是很多谷歌收录被一些被围墙的网站),或者设置了正文中的最小字符数,或者程序忽略了那些本地同名类似内容文章,或者黑名单白名单过滤等,会导致实际生成文章数低于页面搜索的最大结果数。
总的来说,百度采集的质量最好,生成的文章数量接近搜索结果的数量。