gpt4 book ai didi

java - Mallet LDA 主题建模中的空主题

转载 作者:行者123 更新时间:2023-11-29 03:02:52 24 4
gpt4 key购买 nike

当我运行具有更多主题(例如 T > 300)的 Mallet LDA 时,我得到的主题具有空主题词(没有单个主题词)。

为什么会这样?这是 Mallet 中的错误吗?

我在 ubuntu 14.04 机器上使用 mallet 2.0.7。

编辑

mallet-2.0.7/bin/mallet import-dir --input $path/$posts --output $outputDir/$posts.mallet \
--keep-sequence --remove-stopwords --token-regex "[\\p{Alpha}_]+" #--save-text-in-source

mallet-2.0.7/bin/mallet train-topics --input $outputDir/$posts.mallet \
--num-topics $topics --output-state $outputDir/topic-state.gz \
--output-topic-keys $outputDir/topics.txt --output-doc-topics $outputDir/document_composition.txt \
--topic-word-weights-file $outputDir/topic_word_weights.txt --num-top-words $numtopwords \
--optimize-interval 10 --word-topic-counts-file $outputDir/topic_counts.txt

至于语料库细节,它包含大约 1000 个文件。每个文件可能包含一个或几个句子。语料库非常小,大约 1 MB。

最佳答案

我从 David Mimno 那里得到的答案:

这通常表示相对于语料库的大小,您拥有大量主题。 Mallet 使用 Gibbs 抽样,因此主题基于当前分配给主题的 token 的实际计数。这些“空洞”的话题本身并没有什么错,只要你知道不要过于相信它们。

关于java - Mallet LDA 主题建模中的空主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33749646/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com