gpt4 book ai didi

machine-learning - 文本处理,如何使用 LDA 分配 1 个主题 -> 1 个文档?

转载 作者:行者123 更新时间:2023-11-30 09:12:35 25 4
gpt4 key购买 nike

我有 2 个文件,

音乐.txt科学.txt

我想从上面提取 2 个主题(音乐科学)

从这 2 个文件创建 LDA 模型后(设置 num_topics=2)

lda = gensim.models.ldamodel.LdaModel(corpus=my_corpus, id2word=corpus_dictionary, num_topics=2)

print(lda.print_topic(0))
print(lda.print_topic(1))

这是我的输出

0.011*scientific + 0.010*musical + 0.007*music, + 0.006*music. + 0.006*study + 0.005*not + 0.005*research + 0.005*main

0.030*music + 0.013*science + 0.010*scientific + 0.009*musical + 0.006*not + 0.005*music. + 0.005*study + 0.005*music, + 0.005*their + 0.005*research

如您所见,这两个主题中都存在科学和音乐

我愿意

  1. 使用 music.txt 并创建 1 个主题音乐 LDA 模型
  2. 使用 science.txt 并创建 1 个主题科学 LDA 模型
  3. 将上述 2 个 LDA 模型组合起来,得到 1 个具有上述 2 个主题的 LDA 模型

上述第三步可行吗?我想在我的 LDA 模型中对主题进行单独隔离。如果没有,有什么替代方案吗?

最佳答案

您可以做两件事:

1) 如果您的文档确实包含专门关于音乐或科学的文本,那么 LDA 主题给出如此混合的结果就会很奇怪。尝试改进模型可能是值得的。您可以考虑删除停用词、忽略低频词等。

2) 然而,您真正寻找的方法是所谓的标记 LDA。使用带标签的 LDA,您可以在已标记目标主题的文档上训练模型,而不是让模型本身推断最合适的主题。据我所知,标记的LDA尚未在gensim中实现,但你可以在 Stanford Topic Modeling Toolkit 中找到它。等地方。

关于machine-learning - 文本处理,如何使用 LDA 分配 1 个主题 -> 1 个文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29589795/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com