沧州关键词采集文章(关键词提取算法的一个重要特点是什么?提取方法 )
优采云 发布时间: 2021-12-19 23:14沧州关键词采集文章(关键词提取算法的一个重要特点是什么?提取方法
)
关键词 抽取就是从文本中抽取一些与这个文章的意思最相关的词。它在文档检索、自动抽象和文本聚类/分类方*敏*感*词*有重要应用。
关键词 抽取算法一般分为有监督和无监督两种
有监督的关键词抽取方法主要是通过分类进行,通过构建相对丰富完整的词汇表,然后判断每个文档与词汇表中每个词的匹配程度,并通过类似的标注方式来达到效果关键词 提取。优点是准确率高,缺点是需要大量标注数据,人工成本太高,需要及时维护词汇。
相比之下,无监督方法对数据的要求较低,既不需要人工生成和维护词汇,也不需要人工标注语料来辅助训练。最常用的关键词 提取算法基于无监督算法。如TF-IDF算法、TextRank算法和主题模型算法(包括LSA、LSI、LDA等)
1.TF-IDF算法
TF-IDF是一种数值统计方法,用于反映一个词在期望中对某个文档的重要性。其主要思想是:如果一个词在文档中出现频率高,即TF高;并且在其他文档中很少出现,即如果IDF高,则认为这个词具有很好的分类能力。
TF为词频,即词t在文档d中出现的频率:tf(word) =(该词在文档中出现的次数)/(文档中的总词数)
IDF常用的计算公式如下:|D| 是文档集中的文档总数,
是文档中出现单词 i 的文档数。分母加1使用拉普拉斯平滑,避免出现一些新词没有出现在语料库中而分母为零的情况。
2.TextRank 算法
该算法的一个重要特点是可以脱离语料库的背景,只分析单个文档,提取文档的关键词。基本思想来自 Google 的 PageRank 算法。这个算法是谷歌创始人拉里佩奇和谢尔盖布林在1997年构建早期搜索系统原型时提出的一种链接分析算法,有两个基本思想:
1)链接数。一个网页被其他网页链接的链接越多,这个网页就越重要
2) 链接质量。如果一个网页被一个更高权重的网页链接,也可以表明该网页更重要
TextRank用于关键词提取的算法如下:
(1)给定的文本T被分割成完整的句子,即:
(2) 对每个句子进行分词和词性标注,过滤掉停用词,只保留指定的词性词,如名词、动词、形容词等。
ti,j 为预约后的候选关键词。
(3)构造候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(Co-Occurrence) 在任意两点之间构造一条边。两个节点之间只有当它们对应的词在长度为K的窗口中共同出现时才存在一条边。K表示窗口大小,即最多K 字可以同时出现。
(4)根据TextRank的公式,迭代传播每个节点的权重,直到收敛。
(5)将节点权重倒序排序,得到最重要的T字作为候选关键词。
(6)从(5)中取出最重要的T个词,并在原文中做标记。如果形成相邻的词组,则组合成多个词关键词。
下面主要通过jieba包中的analyze函数来实现这两种关键词提取算法:
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence:待提取的文本语料
topK:返回 TF/IDF 权重最大的关键词个数,默认值为 20
withWeight:是否需要返回关键词权重值,默认值为 False
allowPOS:仅包括指定词性的词,默认值为空,即不筛选