gpt4 book ai didi

sampling - LDA:为什么要采样以推断新文档?

转载 作者:行者123 更新时间:2023-12-03 04:33:19 26 4
gpt4 key购买 nike

给定一个标准 LDA 模型,其中包含 1000 个主题和数百万个文档,并使用 Mallet/折叠吉布斯采样器进行训练:

在推断新文档时:为什么不直接跳过采样并简单地使用模型的术语主题计数来确定新文档的主题分配?据我所知,对新文档应用吉布斯采样会考虑新文档的主题混合,这反过来会影响主题的组成方式(beta、term-freq.distributions)。然而,由于在推断新文档时主题保持固定,我不明白为什么这应该是相关的。

采样的一个问题是概率性质 - 有时推断的文档主题分配在重复调用时会有很大变化。因此,我想了解采样与仅使用确定性方法的理论和实践值(value)。

谢谢本

最佳答案

仅使用最后一个吉布斯样本的术语主题计数并不是一个好主意。这种方法没有考虑主题结构:如果文档包含来自一个主题的许多单词,则可能包含更多来自该主题的单词[1]。

例如,假设两个单词在两个主题中具有相同的概率。给定文档中第一个单词的主题分配会影响另一个单词的主题概率:另一个单词更有可能与第一个单词处于同一主题中。反之亦然。这种情况的复杂性就是我们使用吉布斯抽样等方法来估计此类问题的值的原因。

至于您对主题分配的评论有所不同,这也是无济于事的,并且可以被视为一件好事:如果单词主题分配有所不同,您就不能依赖它。您所看到的是,该单词的主题的后验分布没有明显的赢家,因此您应该对特定的作业持保留态度:)

[1] 假设 beta(文档主题分布的先验)鼓励稀疏性,这通常是为主题模型选择的。

关于sampling - LDA:为什么要采样以推断新文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34741850/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com