常见的关键词提取方法有哪些?-八维教育

优采云 发布时间: 2021-03-22 07:10

  常见的关键词提取方法有哪些?-八维教育

  关键词是文档中表达的主要主题。在处理文档或句子时,提取关键词是最重要的任务之一,这在NLP中也是非常有用的任务。

  常见的关键词提取方法为:TF-IDF 关键词提取方法,主题模型关键词提取方法和RAKE 关键词提取。

  TF-IDF:

  使用TF-IDF提取关键词的方法非常容易理解。 TF测量文档中单词的频率。在文档中多次出现的单词始终具有特定的特殊含义,但并非所有出现两次的单词都是有意义的。如果一个单词在所有文档中多次出现,则该单词没有任何价值。

  TF-IDF可以很好地衡量这些因素:TF =(单词在文档中出现的次数)/(文章中单词的总数),IDF = log(语料库中文档的摘要/(收录单词Number of document + 1))

  TF-IDF = TF * IDF

  TF-IDF值越大,该单词成为关键词的可能性就越大。

  主题模型:

  使用主题模型提取关键词的关键思想是认为文章由主题组成,并且文章中的单词是从主题中以一定概率选择的,即在文章和单词之间。主题的集合。在不同的主题下,单词出现的概率分布是不同的。

  根据LDA主题模型的学习,可以获得文档的主题词集合。

  RAKE 关键词提取:

  RAKE(快速自动关键字提取)算法的原创作者是Alyona Medelyan。她完成了RAKE的更新版本。 Muai索引器也是她的杰作。她的GitHub上有很多关键字提取项目。

  有一篇文章文章介绍了RAKE算法,链接为:

  RAKE提取的关键词不是一个单词,可能是一个短语。

  每个短语的得分是通过累加组成该短语的单词获得的,单词的得分与单词的程度和单词频率有关:score = degree / freq

  其中,与一个单词同时出现的单词越多,该单词的程度就越大。

  原创RAKE GitHub地址:

  我还创建了一个项目,该项目使用RAKE提取英语句子关键词,可以用作RAKE使用示例。您可以从我的GitHub地址获取它:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线