搜索引擎主题模型优化(自己学LDA主题模型有这么几个未解决的问题?)

优采云 发布时间: 2022-04-07 00:02

  搜索引擎主题模型优化(自己学LDA主题模型有这么几个未解决的问题?)

  作者留言: 自己学习LDA主题模型的时候,发现模型有几个未解决的问题:

  1、LDA 主题的数量是最优的。

  2、做了一个话题后,如何衡量话题-话题、话题和词的关系。

  所以看了几位老师的结果后,把他们的结果比对了起来。笔者发现目前R中有两个包可以用于LDA模型,lda包+topicmodels包。在使用这两个包的过程中,需要排序的数据是不同的,所以数据处理会比较麻烦。过程。

  主题模型的概念在网上很多博客中都有介绍。是一种比较成型的方法。作者推荐以下博客:

  1、主题模型-LDA分析

  2、LDA-math-LDA 文本建模3、主题模型

  ————————————————————————————————————————————————

  两种估计方法 - VEM 和 gibbs

  一般来说,逼近这种后验分布的方法可以分为两类:

  1. 变分算法,它们是确定性方法。变体算法假设一些参数分布,并将这些理想分布与后验数据进行比较,并找到最接近的分布。因此,估计问题转化为优化问题。主要算法是变分期望最大化算法(VEM)。这种方法是最常用的方法。主要用在 R 软件的 tomicmodels 包中。

  2. 基于采样的算法。采样算法,比如Gibbs采样,主要是构造一个马尔可夫链,从后验经验分布中抽取一些样本来估计后验分布。吉布斯采样的方法在 R 软件的 lda 包中被广泛使用。

  参考:使用R作为主题模型:词过滤和主题号确定

  ————————————————————————————————————————————————————— ——————

  R包枚举——lda和topicmodel

  在R语言中,提供LDA模型的包(package)有两个:lda和topicmodels。

  lda 提供基于 Gibbs 采样、MMSB(混合成员随机块模型)、RTM(关系主题模型)和 sLDA(监督 LDA)和 RTM 的经典 LDA。基于 VEM(变分期望最大化)。

  topicmodels 基于包 tm 提供了三种模型:LDA_VEM、LDA_Gibbs 和 CTM_VEM(相关主题模型)。

  此外,textir 包还提供了其他类型的主题模型。

  参考:R的文档主题模型

  ————————————————————————————————————————————————————— —

  R语言第三个包:LDA主题模型有一个新包:text2vec包

  LDA 主题模型是基于 lda 包 (Jonathan Chang) 开发的。在下一个版本中,主题模型的引擎将嵌入到 lda 包中。目前,text2vec 开发模型比 lda 包快 2 倍,比 topicmodels 包快 10 倍。. LSA 模型基于 irlab 包。

  你可以参考博客:

  Heavy︱R+NLP:text2vec包介绍(GloVe词向量、LDA主题模型、各种距离计算等)

  ————————————————————————————————————————————————

  R语言的第四个包:dfrtopics

  dfrtopics历史悠久,但是国内很少有人提到这个包,在java中通过调用MALLET来操作。

  github主页:

  介绍几个功能:

  1、top_words

  ## topic word weight

##

## 1 1 two 3602

## 2 1 evidence 1779

## 3 1 original 1472

## 4 1 fact 1452

## 5 1 lines 1410

## 6 1 case 1350

## 7 1 found 1221

## 8 1 line 1086

## 9 1 given 1029

## 10 1 question 968

## # ... with 390 more rows

  一键生成与对应词的词频表相同的内容。

  2、逆天功能

  查看主题随时间的趋势波动,topic_series

<p>srs

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线