新闻、资讯类内容的关键词提取任务(一)

优采云 发布时间: 2021-07-09 19:04

  新闻、资讯类内容的关键词提取任务(一)

  最近在处理关键词新闻信息内容的提取任务,了解这方面的情况。现在让我们分享一下:

  一、关键词extraction

  因为关键词可以表达一个文章的中心内容,大家在写论文的时候都遇到过,所以在工作中,特别是对于新闻文章、信息和舆论,甚至是视频,提取准确的关键词一方面让读者快速了解内容的中心,另一方面也是为了更好的分类和标注。

  二、关键词提取常用算法

  目前人们主要使用无监督算法,如基于统计特征的关键词extraction(TF-IDF)、基于词图模型的关键词extraction(TextRank)、基于主题模型的关键词extraction (LDA)。

  无监督算法更方便、更快捷,因为它们不需要手动标记数据。然而,缺陷在于他们无法衡量关键词提取的准确性。他们更多地依靠人的主观性来判断关键词是否准确,是否反映文章中心的内容。

  2.1TF-IDF关键词 算法原理:TF-IDF(词频-逆文档频率,词频-逆文档频率),主要根据词在文档中出现的次数和词在整个语料库中的出现频率是确定的。

  公式:TF = ($\frac{该词在该内容中出现的次数}{该内容中所有词的数量}$), IDF = ($\frac{预期中的文档总数library}{ 分母中收录term+1}$)的文档数加1是为了防止分母为0。

  TF-IDF = ($ TF\cdot IDF$)

  所以,TF-IDF算法的思路其实就是,如果一个词在这个内容中出现的次数较多,而在其他文档中出现的次数较少,那么这个词就是关键词。但是因为有些词,比如出现在标题和第一段的词,如果比较重要,算法需要稍微修改一下,增加位置的权重。

  TF-IDF的缺点:IDF的计算值需要有语料支持。目前主要的语料主要是基于人民日报的预测数据库训练得到的,比较老,大概是2000年的。所以如果是专业性很强的领域,用这个语料计算的IDF值会不同,导致提取关键词 的性能不佳。因此,语料库或IDF词库需要及时更新,建议专业性强的领域自行获取语料库。

  TF-IDF 代码实现:

  1 import jieba.analyse

2

3 text='关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作'

6

7 keywords=jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=())

8 print(keywords)

#其中text是需要提取关键词的文本

#topK为返回TF-IDF值最大的几个关键词,数字可以自己设置

#withWeight为是否反馈关键词权重值,默认值为False

#allowPOS仅包括制定词性的词,可以选择关键词的词性 词性表:https://blog.csdn.net/zhuzuwei/article/details/79029904

  2.2 TextRank关键词 算法原理:TextRank首先提取词汇,形成节点;然后根据词汇的关联建立联系。根据连接节点的数量,为每个节点分配一个初始权重值。然后迭代。根据连接到一个词的所有词的权重,重新计算该词的权重,然后将重新计算的权重向下传递。在这种变化达到平衡状态之前,权重值不再变化。这在意识形态上与 Google 的 PageRank 算法一致。根据最终的权重值,取其中排名靠前的词汇作为关键词提取结果。该算法的优点是可以脱离语料库的背景。与TF-IDF方法相比,它可以充分利用文本元素之间的关系。缺点是没有考虑整个文档库的语料信息,计算量大。

  公式:

  

  其中,WS(Vi)是词i的权重,WS(Vj)是词j的权重,d是阻尼系数,一般0.85,In(Vi)都是指向i的整个文档的词集,Out(Vj)是词j指向的所有其他词的集合。

  TextRank 代码实现:

  1 import jieba.analyse

2

3 text = '关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作'

4

5 keywords = jieba.analyse.textrank(text, topK=10, withWeight=False, allowPOS=())

6 print(keyword)

  总结:目前使用的方法主要是以上两种,可以根据实际效果选择其中一种。

  参考文献:

  1、

  2、

  3、

  4、

  5、

  6、

  7、

  8、

  ---------------------------本博客所有内容均基于学习、研究和分享。如需转载,请联系我,注明作者和出处,非商业用途,谢谢! --------------

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线