搜索引擎主题模型优化(自己学LDA主题模型有这么几个未解决的问题？)

优采云发布时间: 2022-04-07 00:02

　　作者留言：自己学习LDA主题模型的时候，发现模型有几个未解决的问题：

　　1、LDA 主题的数量是最优的。

　　2、做了一个话题后，如何衡量话题-话题、话题和词的关系。

　　所以看了几位老师的结果后，把他们的结果比对了起来。笔者发现目前R中有两个包可以用于LDA模型，lda包+topicmodels包。在使用这两个包的过程中，需要排序的数据是不同的，所以数据处理会比较麻烦。过程。

　　主题模型的概念在网上很多博客中都有介绍。是一种比较成型的方法。作者推荐以下博客：

　　1、主题模型-LDA分析

　　2、LDA-math-LDA 文本建模3、主题模型

　　————————————————————————————————————————————————

　　两种估计方法 - VEM 和 gibbs

　　一般来说，逼近这种后验分布的方法可以分为两类：

　　1. 变分算法，它们是确定性方法。变体算法假设一些参数分布，并将这些理想分布与后验数据进行比较，并找到最接近的分布。因此，估计问题转化为优化问题。主要算法是变分期望最大化算法（VEM）。这种方法是最常用的方法。主要用在 R 软件的 tomicmodels 包中。

　　2. 基于采样的算法。采样算法，比如Gibbs采样，主要是构造一个马尔可夫链，从后验经验分布中抽取一些样本来估计后验分布。吉布斯采样的方法在 R 软件的 lda 包中被广泛使用。

　　参考：使用R作为主题模型：词过滤和主题号确定

　　————————————————————————————————————————————————————— ——————

　　R包枚举——lda和topicmodel

　　在R语言中，提供LDA模型的包（package）有两个：lda和topicmodels。

　　lda 提供基于 Gibbs 采样、MMSB（混合成员随机块模型）、RTM（关系主题模型）和 sLDA（监督 LDA）和 RTM 的经典 LDA。基于 VEM（变分期望最大化）。

　　topicmodels 基于包 tm 提供了三种模型：LDA_VEM、LDA_Gibbs 和 CTM_VEM（相关主题模型）。

　　此外，textir 包还提供了其他类型的主题模型。

　　参考：R的文档主题模型

　　————————————————————————————————————————————————————— —

　　R语言第三个包：LDA主题模型有一个新包：text2vec包

　　LDA 主题模型是基于 lda 包 (Jonathan Chang) 开发的。在下一个版本中，主题模型的引擎将嵌入到 lda 包中。目前，text2vec 开发模型比 lda 包快 2 倍，比 topicmodels 包快 10 倍。. LSA 模型基于 irlab 包。

　　你可以参考博客：

　　Heavy︱R+NLP：text2vec包介绍（GloVe词向量、LDA主题模型、各种距离计算等）

　　————————————————————————————————————————————————

　　R语言的第四个包：dfrtopics

　　dfrtopics历史悠久，但是国内很少有人提到这个包，在java中通过调用MALLET来操作。

　　github主页：

　　介绍几个功能：

　　1、top_words

　　## topic word weight

##

## 1 1 two 3602

## 2 1 evidence 1779

## 3 1 original 1472

## 4 1 fact 1452

## 5 1 lines 1410

## 6 1 case 1350

## 7 1 found 1221

## 8 1 line 1086

## 9 1 given 1029

## 10 1 question 968

## # ... with 390 more rows

　　一键生成与对应词的词频表相同的内容。

　　2、逆天功能

　　查看主题随时间的趋势波动，topic_series

<p>srs

0

2022-04-07

搜索引擎主题模型优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎主题模型优化(自己学LDA主题模型有这么几个未解决的问题？)

0 个评论

发起人

AI时代内容工厂

搜索引擎主题模型优化(自己学LDA主题模型有这么几个未解决的问题？)

0 个评论

发起人

相关问题