gpt4 book ai didi

topic-modeling - Mallet 主题建模 - 主题键输出参数

转载 作者:行者123 更新时间:2023-12-04 06:41:25 25 4
gpt4 key购买 nike

在 MALLET 主题建模中,--output-topic-keys [FILENAME]选项在每个主题旁边输出一个参数,该参数在 MALLET 站点的教程中称为该主题的“Dirichlet 参数”。

我想知道这个参数代表什么?在LDA模型中是β吗?如果不是,它是什么,它的意义和用途是什么。

我注意到当我在生成主题模型时不使用参数优化选项时,此参数在 2.0.7 版本中与在 2.0.8 版本中不同。我想知道为什么会发生这种差异。

这是 2.0.7 版输出

Version 2.0.7

和 2.0.8

enter image description here

我知道每次运行的输出都不同,但我只关心这个参数。

最佳答案

Mallet 中使用的主题模型推理算法涉及为每个单词重复采样新的主题分配,保持所有其他单词的分配固定。控制这个过程的因素是(1)当前词类型在每个主题中出现的频率和(2)每个主题在当前文档中出现的次数。平滑参数确保这些值对于任何主题永远不会为零:beta对于第一个因素,alpha第二个。

你可以想到alpha参数在此处显示为每个主题中添加的“虚构”单词的数量。在第一种情况下,主题 0 在每个文档中都有 2.5 个虚拟词的权重。此参数的默认值最初是 50/numTopics .较大的值鼓励模型在文档中具有更均匀的主题分布,较小的值鼓励更多的稀疏性。一般的经验是 50 太大了,而 5 是更好的默认值。这在 2.0.8 中有所改变。

默认是使 alpha所有主题的权重相等。启用超参数优化后,这些值可能会有所不同。通常你会发现一个大值的主题会包含“近停用词”,这些词在大多数文档中很常见,而且内容不多。值(value)非常小的主题通常是不寻常和独特的文档。中间的话题往往是最有趣的。

关于topic-modeling - Mallet 主题建模 - 主题键输出参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45162186/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com