文章标题也实现99%的提取精度,你知道吗?

优采云 发布时间: 2021-07-26 02:39

  文章标题也实现99%的提取精度,你知道吗?

  文章Title 也达到了 99% 的提取准确率。当然,当一些网页的布局格式混乱、不规则时,可能会降低准确率。

  【文本提取模式】

  文本提取算法有标准标签、严格标签和精确标签三种模式。在大多数情况下,标准模式和严格模式是相同的提取结果。以下是特殊情况:

  标准模式:一般提取。大部分情况下可以准确提取文本,但一些特殊页面会导致提取一些不必要的内容(但这种模式可以更好地识别文章页面类似于百度经验)

  严格模式:顾名思义,比标准模式严格一点,在很大程度上可以避免提取不相关的内容作为正文,但是对于百度体验页等特殊的分词页(不通用

  段落,但有多个独立的div段和格式),一般只能提取某一段,而标准模式可以提取所有段落。

  精确标签:当标准和严格模式不可用时,您可以精确指定目标正文的标签头。此模式仅适用于网络批处理。

  所以你可以根据实际情况切换模式。您可以使用本地批处理的读取网页正文功能来测试指定网页适合提取哪种模式。

  [采集时的处理选项]

  采集 可以同时翻译、过滤和搜索单词。对于采集好文章,您可以使用“本地批处理”。

  翻译功能是将中文翻译成英文再翻译回中文,也产生了伪原创的效果。支持原创格式翻译,即文章的原创标签结构和排版格式不会改变。

  [采集Target 是网址]

  您可以在 URL 模板中插入 #URL#、#title# 以合并引用

  [分页采集和绝对路径的相对路径]

  勾选“自动采集page”合并页面文章采集,并将编辑框中的值设置为最大页数采集。建议设置一个有限的值,比如10页,避免一些采集分页时间过长,合并的文章大小较大。如果需要采集所有页面,可以设置为0。

  文章中的所有相对路径都会自动转换为绝对路径,可以保证图片等的正常显示

  [多线程]

  支持多线程高速采集网页。可以根据网速来确定。 Telecom 2m可以有5个线程,Telecom 4m可以有10个线程,依此类推,但需要适当设置。过多的设置可能会严重影响采集效率,甚至影响系统效率。如果采集有其他占用流量的软件,比如在线视频播放,可以适当减少线程数。

  [文章Title 和文章内容重复处理]

  程序可以智能判断过滤重复文章

  当采集到达的文章标题(文件名)与本地保存的文章标题相同时,优采云会先判断两个文章的相似度,当相似度较大时大于60% 当优采云判断为同一个文章时,则比较两个文章的文字量,自动用更多的文字文章覆盖写入同一个文件名。这个世代情况加起来不及世代数。

  当相似度小于60%时,优采云判断与文章不同,会自动重命名标题(标题末尾随机取3到5个字母)并保存到文件中.

  [文章快速过滤]

  虽然优采云研究了非常准确的人体提取算法,但是提取错误还是很少。这些错误主要是:目标页面的主体是网络视频,或者主体内容太短,无法形成主体特征。因此,可以通过设置最终结果的字数来提高准确率(在“最小文本字符数”参数中,这个字数就是程序去掉标签、行、空格后的纯文本字数来自正文)。

  文章quick 过滤器是为了快速查看采集好文章,方便对有错误文字的文章进行判断和删除。同时也方便了基于网络信息采集的目的需要进行的提炼过程。

  [生成文章数量可变的问题]

  百度和搜搜默认每页 100 个结果,Google 默认每页 10 个结果。

  部分网站访问速度超时(尤其是很多谷歌收录被一些网站屏蔽),或者设置正文最少字数,或者程序忽略了里面同名的相似内容local文章,或者黑名单白名单过滤等,会导致实际生成文章数低于每页搜索的最大结果数。

  总体来说,百度采集质量最好,生成的文章数量接近搜索结果数量。

  >

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线