关键句采集 原创(特征词提取常见算法--1.)
优采云 发布时间: 2022-01-19 21:15关键句采集 原创(特征词提取常见算法--1.)
特征词提取常用算法------------无监督---------- 1.TF-IDF
重要性 = 每个单词的词频 TF * 逆文档频率 IDF。
思考:如果一个词或短语在一个文章中出现的频率较高(高TF值),而在另一个文章中出现频率较低(低DF值,高IDF值),则认为该词或短语短语代表< @文章 很好,可以用于分类。
2.TextRank
基于PageRank,算法认为如果Page B中有指向Page A的链接,那么Page B会投票给Page A。要计算Page A的PageRank值,我们需要知道哪些页面会投票给Page A。同时,PageRank值也受投票页面质量的影响。当一些优质页面投票给Page A时,A的PR值会增加,反之亦然。
候选词的重要性是根据它与其他候选词的关系来确定的。将文本划分为若干个构成单元(词、词组、句子),通过构成单元之间的邻接关系(共现关系)构建图模型。一个节点的入口节点集代表其投票支持者的数量。投票者越多,权重越高,被投票节点的权重越高。
可以与头寸加权等结合使用。
3.基于LDA的关键词提取
在LDA训练中,一个文章的主题分布p(z|di)和文章中的词的主题分布p(z|wi)可以通过余弦相似度或者KL分散得到。度来计算两个分布的相似度。如果 文章 的某个话题 z 的概率很高,而 文章 中的某个词也有更大的话题 z 的概率,那么这个词将有很大的概率是 和关键短语 - 重新计算分数(将结合文档分数)
论文7:基于TextRank算法的复杂节点关键词提取方法
结合 TextRank 和 TF-IDF
步骤:文本预处理 - 过滤候选词 - 提取 关键词
分别从新闻标题和文本中提取。
论文8:基于TF-IDF和TextRank的新闻关键词提取技术研究
-----------------待补充-----------------