关键句采集 原创(特征词提取常见算法--1.)

优采云 发布时间: 2022-01-19 21:15

  关键句采集 原创(特征词提取常见算法--1.)

  特征词提取常用算法------------无监督---------- 1.TF-IDF

  重要性 = 每个单词的词频 TF * 逆文档频率 IDF。

  思考:如果一个词或短语在一个文章中出现的频率较高(高TF值),而在另一个文章中出现频率较低(低DF值,高IDF值),则认为该词或短语短语代表< @文章 很好,可以用于分类。

  2.TextRank

  基于PageRank,算法认为如果Page B中有指向Page A的链接,那么Page B会投票给Page A。要计算Page A的PageRank值,我们需要知道哪些页面会投票给Page A。同时,PageRank值也受投票页面质量的影响。当一些优质页面投票给Page A时,A的PR值会增加,反之亦然。

  候选词的重要性是根据它与其他候选词的关系来确定的。将文本划分为若干个构成单元(词、词组、句子),通过构成单元之间的邻接关系(共现关系)构建图模型。一个节点的入口节点集代表其投票支持者的数量。投票者越多,权重越高,被投票节点的权重越高。

  可以与头寸加权等结合使用。

  3.基于LDA的关键词提取

  在LDA训练中,一个文章的主题分布p(z|di)和文章中的词的主题分布p(z|wi)可以通过余弦相似度或者KL分散得到。度来计算两个分布的相似度。如果 文章 的某个话题 z 的概率很高,而 文章 中的某个词也有更大的话题 z 的概率,那么这个词将有很大的概率是 和关键短语 - 重新计算分数(将结合文档分数)

  论文7:基于TextRank算法的复杂节点关键词提取方法

  结合 TextRank 和 TF-IDF

  步骤:文本预处理 - 过滤候选词 - 提取 关键词

  

  分别从新闻标题和文本中提取。

  论文8:基于TF-IDF和TextRank的新闻关键词提取技术研究

  -----------------待补充-----------------

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线