文本挖掘关键词智能提取系统

优采云 发布时间: 2020-08-26 03:48

  文本挖掘关键词智能提取系统

  关键词是指能反映文本主题或则意思的词句,如论文中的Keyword主键。大多数人写文章的时侯,不会象写论文的那样明晰的强调文章的关键词是哪些,关键词手动提取任务正是在这些背景下形成的。

  目前,关键词手动提取方式分为两类:1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选定若干词句作为文章的关键词;2)关键词抽取,从文章的内容中抽取一些词句作为关键词。

  NLPIR/ICTCLAS大数据搜索挖掘系统是采用人工智能于语义的统计语言模型技术手动提取关键字,所处理的文档不受行业领域限制,且还能辨识出最新出现的新成语,所输出的词句可以配以权重。其工作原理是:

  1)通过搜索互联网获得与文本相关的背景知识,对于给定的文本,利用一个图象算法监测文本中重要的短语,然后对获得的诗句去除无意义的词组,并且把剩下的词返回原创形态,最后的结果就是与文本对应的查询,它收录了文本中的重要信息;

  2)分析返回的互联网文章的结构,对于每一个返回的互联网文章,分析它的结构,提取导出链接,导出链接,种类和Infobox四种不同的结构信息,并且组成相应的集合.

  3)对形成的词组集合特点进行机器学习,使用支持向量机算法对里面的特点进行机器学习,通过训练得到一个模型,并借助这个模型进行关键字的手动提取。

  NLPIR/ICTCLAS大数据搜索挖掘系统才能在全面掌握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或句子,相关结果可用于精化阅读、语义查询和快速匹配等。

  NLPIR/ICTCLAS大数据搜索挖掘系统主要特色在于:

  1、速度快:可以处理海量规模的网路文本数据,平均每小时处理起码50万篇文档;

  2、处理精准:Top N的剖析结果常常能反映出该篇文章的主干特点;

  3、精准排序:关键词根据影响权重排序,可以输出权重值;

  4、开放式插口:文章关键词提取组件作为NLPIR/ICTCLAS的一部分,采用灵活的开发插口,可以便捷地融入到用户的业务系统中,可以支持各类操作系统,各类调用语言。

  关键词可以被称为是整个搜索应用的基石。对用户和搜索引擎来说,关键词是双方互动的媒介,难以想象假如不使用关键词,我们怎么来达到快捷有效的信息查询和提取目的。

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线