gpt4 book ai didi

lda - 在 LDA 模型中设置超参数 alpha 和 theta 的规则

转载 作者:行者123 更新时间:2023-12-02 01:21:52 34 4
gpt4 key购买 nike

我想知道更多关于LDA模型中是否有设置超参数alpha和theta的规则。我运行图书馆提供的 LDA 模型 gensim :

ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=30, id2word = dictionary, passes=50, minimum_probability=0)

但我对超参数的规范表示怀疑。从我在库文档中红色的内容来看,两个超参数都设置为 1/主题数。鉴于我的模型有 30 个主题,两个超参数都设置为共同值 1/30。我在描述经济事件的新闻文章中运行该模型。出于这个原因,我希望文档主题分布 (theta) 较高(文档中的相似主题),而主题词分布(alpha)也较高(主题共享许多共同词,或者不对每个主题都如此独特)。因此,鉴于我对超参数的理解是正确的,1/30 是正确的规范值吗?

最佳答案

我假设您期望 theta 和 phi(文档主题比例和主题词比例)更接近等概率分布,而不是具有专有主题/词的稀疏分布。

由于 alpha 和 beta 是对称 Dirichlet 先验的参数,因此它们对您想要的有直接影响。 Dirichlet 分布输出概率分布。当参数为 1 时,所有可能的分布都同样喜欢结果(对于 K=2,[0.5,0.5] 和 [0.99,0.01] 具有相同的机会)。当参数>1 时,该参数表现为伪计数器,作为先验信念。对于高值,首选等概率输出 (P([0.5,0.5])>P([0.99,0.01])。参数<1 具有相反的行为。对于大词汇表,您不希望所有单词都有概率的主题,这就是为什么 beta 往往低于 1(对于 alpha 也是如此)。

但是,由于您使用的是 Gensim,您可以让模型为您学习 alpha 和 beta 值,从而允许学习不对称向量(请参阅 here )

alpha can be set to an explicit array = prior of your choice. It also support special values of ‘asymmetric’ and ‘auto’: the former uses a fixed normalized asymmetric 1.0/topicno prior, the latter learns an asymmetric prior directly from your data.



eta(我称之为 beta)也是如此。

关于lda - 在 LDA 模型中设置超参数 alpha 和 theta 的规则,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39644667/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com