网站文章采集器(基于优采云自主研发的高精度提取正文算法采集文章)

优采云发布时间: 2021-08-31 18:11

　　基于优采云采集Internet文章自主研发的高精度文本提取算法

　　由优采云software 文章采集器出品的基于高精度文本识别算法的互联网。支持关键词采集百度等搜索引擎的新闻源()和泛页()，支持采集designated网站栏目下的所有文章。

　　【什么是高精度文本识别算法】

　　该算法由优采云自主研发，可以从网页中提取正文部分，通常准确率为95%。如果进一步设置最小字数，采集文章的准确率（正确性）可以达到99%。同时文章title也达到了99%的提取准确率。当然，当一些网页的布局格式混乱、不规则时，可能会降低准确率。

　　【文本提取模式】

　　文本提取算法有标准标签、严格标签和精确标签三种模式。在大多数情况下，标准模式和严格模式是相同的提取结果。以下是特殊情况：

　　标准模式：一般提取。大部分时候可以准确提取文本，但是一些特殊的页面会导致提取一些不必要的内容（但这种模式可以更好地识别文章页面类似于百度经验）

　　Strict 模式：顾名思义，比标准模式严格一点，可以在很大程度上避免提取无关内容作为正文。 id="info_1" 但是对于百度体验页等特殊的段页面（不是一般的段落，而是有多个独立的格式的div段），一般只能提取某一段，而标准模式可以提取所有的段。

　　精确标签：当标准和严格模式不起作用时，可以精确指定目标正文的标签头。此模式仅适用于网络批处理。

　　所以你可以根据实际情况切换模式。您可以使用本地批处理的读取网页正文功能来测试指定网页适合提取哪种模式。

　　[采集时的处理选项]

　　采集可以同时翻译、过滤和搜索单词。对于采集好文章，您可以使用“本地批处理”。

　　翻译功能是将中文翻译成英文再翻译回中文，也产生了伪原创的效果。支持原创格式翻译，即文章的原创标签结构和排版格式不会改变。

　　[采集Target 是网址]

　　您可以在 URL 模板中插入 #URL#、#title# 以合并引用

　　[分页采集和绝对路径的相对路径]

　　勾选“自动采集page”合并分页文章采集，并在编辑框中设置采集pages的最大数量。建议设置一个有限的值，比如10页，避免一些采集分页太多耗时长，合并后的文章体积大。如果需要采集所有页面，可以设置为0。

　　并且文章中的所有相对路径都会自动转换为绝对路径，可以保证图片等的正常显示

　　[多线程]

　　支持多线程高速采集网页。可以根据网速来确定。 Telecom 2m可以有5个线程，Telecom 4m可以有10个线程，依此类推，但需要适当设置。过多的设置可能会严重影响采集效率甚至影响系统效率。如果采集有其他占用流量的软件，比如在线视频播放，可以适当减少线程数。

　　[文章Title 和文章Content 重复处理]

　　程序可以智能判断过滤重复文章

　　当采集到达的文章标题（文件名）与本地保存的文章标题相同时，优采云会首先判断两个文章的相似度，当相似度较大时大于60% 当判断优采云是同一个文章时，再比较两个文章的文字大小，自动用文字较多的文章覆盖写入同一个文件名。这个世代情况加起来不及世代数。

　　而当相似度小于60%时，优采云判断与文章不同，会自动重命名标题（标题末尾随机取3到5个字母）并保存到文件。

　　[文章快速过滤]

　　优采云虽然研究了高精度的人体提取算法，但是提取错误还是很少。这些错误主要是：目标页面的主体是网络视频，或者主体内容太短，无法形成主体特征。因此，可以通过设置最终结果的字数来提高准确率（在“最小文本字符数”参数中，这个字数就是程序去掉标签、行、空格后的纯文本字数来自正文）。

　　文章quick 过滤器是为了快速查看采集好文章，方便对文字错误的文章进行判断和删除。同时也方便了基于网络信息采集需要进行的提炼过程。

　　[生成文章数量可变的问题]

　　百度和搜搜默认每页 100 个结果，Google 默认每页 10 个结果。

　　有些网站访问速度超时（尤其是很多谷歌收录被一些网站屏蔽了），或者设置了body的最小字符数，或者程序忽略了里面同名的类似内容local文章，或者黑名单和白名单过滤等，会导致实际生成文章数低于每页搜索的最大结果数。

　　总体来说，百度采集质量最好，生成的文章数量接近搜索结果数量。

0

2021-08-31

网站文章采集器

0 个评论

要回复文章请先登录或注册