- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 R 中工作,包“topicmodels”。我正在努力锻炼并更好地理解代码/包。在我阅读的大多数教程和文档中,我看到人们用 5 或 10 个最可能的术语来定义主题。这是一个例子:
library(topicmodels)
data("AssociatedPress", package = "topicmodels")
lda <- LDA(AssociatedPress[1:20,], k = 5)
topics(lda)
terms(lda)
terms(lda,5)
所以代码的最后一部分返回与我定义的 5 个主题相关的 5 个最可能的术语。
在 lda 对象中,我可以访问 gamma 元素,其中包含每个文档属于每个主题的概率。因此,基于此我可以提取概率大于我喜欢的任何阈值的主题,而不是为每个人提供相同数量的主题。
但我的第二步是了解哪些词与主题关联最强。我可以使用 terms(lda) 函数来提取它,但这给了我这么多 N。
在输出中我还找到了
lda@beta
其中包含每个主题每个单词的 beta,但这是一个 Beta 值,我很难解释它。它们都是负值,虽然我看到一些值在 -6 左右,另一些在 -200 左右,但我不能将其解释为概率或度量来查看哪些词以及某些词与主题的关联程度。有没有一种方法可以提取/计算任何可以解释为此类度量的内容。
非常感谢弗雷德里克
最佳答案
beta 矩阵为您提供维度为#topics x #terms 的矩阵。这些值是对数似然,因此您对它们进行了 exp。给定概率的类型P(word|topic) 和这些概率加起来只有 1 如果你对单词求和而不是对主题 P(all words|topic) = 1 而不是 P(word|all topics) = 1。您正在搜索的是 P(topic|word) 但实际上我不知道如何在这种情况下访问或计算它。我猜你需要 P(word) 和 P(topic)。 P(主题)应该是:colSums(lda@gamma)/sum(lda@gamma)
如果您查看 Gamma 矩阵,它会变得更加明显,即#document x #topics。给定的概率是 P(topic|document),可以解释为“给定文档 y,主题 x 的概率是多少”。所有主题的总和应该是 1 但不是所有文档的总和。
关于r - R中潜在狄利克雷分配(LDA)中特定TOPIC的TERM概率是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43982970/
我是一名优秀的程序员,十分优秀!