搜索引擎主题模型优化(自己学LDA主题模型有这么几个未解决的问题?)
优采云 发布时间: 2022-04-07 00:02搜索引擎主题模型优化(自己学LDA主题模型有这么几个未解决的问题?)
作者留言: 自己学习LDA主题模型的时候,发现模型有几个未解决的问题:
1、LDA 主题的数量是最优的。
2、做了一个话题后,如何衡量话题-话题、话题和词的关系。
所以看了几位老师的结果后,把他们的结果比对了起来。笔者发现目前R中有两个包可以用于LDA模型,lda包+topicmodels包。在使用这两个包的过程中,需要排序的数据是不同的,所以数据处理会比较麻烦。过程。
主题模型的概念在网上很多博客中都有介绍。是一种比较成型的方法。作者推荐以下博客:
1、主题模型-LDA分析
2、LDA-math-LDA 文本建模3、主题模型
————————————————————————————————————————————————
两种估计方法 - VEM 和 gibbs
一般来说,逼近这种后验分布的方法可以分为两类:
1. 变分算法,它们是确定性方法。变体算法假设一些参数分布,并将这些理想分布与后验数据进行比较,并找到最接近的分布。因此,估计问题转化为优化问题。主要算法是变分期望最大化算法(VEM)。这种方法是最常用的方法。主要用在 R 软件的 tomicmodels 包中。
2. 基于采样的算法。采样算法,比如Gibbs采样,主要是构造一个马尔可夫链,从后验经验分布中抽取一些样本来估计后验分布。吉布斯采样的方法在 R 软件的 lda 包中被广泛使用。
参考:使用R作为主题模型:词过滤和主题号确定
————————————————————————————————————————————————————— ——————
R包枚举——lda和topicmodel
在R语言中,提供LDA模型的包(package)有两个:lda和topicmodels。
lda 提供基于 Gibbs 采样、MMSB(混合成员随机块模型)、RTM(关系主题模型)和 sLDA(监督 LDA)和 RTM 的经典 LDA。基于 VEM(变分期望最大化)。
topicmodels 基于包 tm 提供了三种模型:LDA_VEM、LDA_Gibbs 和 CTM_VEM(相关主题模型)。
此外,textir 包还提供了其他类型的主题模型。
参考:R的文档主题模型
————————————————————————————————————————————————————— —
R语言第三个包:LDA主题模型有一个新包:text2vec包
LDA 主题模型是基于 lda 包 (Jonathan Chang) 开发的。在下一个版本中,主题模型的引擎将嵌入到 lda 包中。目前,text2vec 开发模型比 lda 包快 2 倍,比 topicmodels 包快 10 倍。. LSA 模型基于 irlab 包。
你可以参考博客:
Heavy︱R+NLP:text2vec包介绍(GloVe词向量、LDA主题模型、各种距离计算等)
————————————————————————————————————————————————
R语言的第四个包:dfrtopics
dfrtopics历史悠久,但是国内很少有人提到这个包,在java中通过调用MALLET来操作。
github主页:
介绍几个功能:
1、top_words
## topic word weight
##
## 1 1 two 3602
## 2 1 evidence 1779
## 3 1 original 1472
## 4 1 fact 1452
## 5 1 lines 1410
## 6 1 case 1350
## 7 1 found 1221
## 8 1 line 1086
## 9 1 given 1029
## 10 1 question 968
## # ... with 390 more rows
一键生成与对应词的词频表相同的内容。
2、逆天功能
查看主题随时间的趋势波动,topic_series
<p>srs