gpt4 book ai didi

python - 在 Python 中使用 Gensim 进行主题建模

转载 作者:行者123 更新时间:2023-11-30 09:12:50 24 4
gpt4 key购买 nike

我有两个类(class)的词袋列表。说出A类中的n个项目和m B 类中的项目。我想在 python 中使用 gensim 包(用于 LDA)进行主题建模,以便训练 A 类与 B 类的模型。同时,我对主题建模Python<都很陌生。/强>。有谁知道我应该怎么做?我的意思是,我应该合并每个类别的所有包并使用 gensim 还是应该为每个项目单独使用包?谢谢!

最佳答案

如果我理解正确的话,您想比较两个来源的文档。

使用 Gensim 执行此操作的一种方法是:

  • 从所有文档(A 和 B)创建词袋语料库(~将文本转换为由 1 和 0 组成的 n X n 矩阵)
  • 在您的语料库上训练 LDA 模型(〜查找主题)
  • 将语料库转换为 LDA 空间(~确定哪些主题与文档相关)

现在您可以查看每个文档的主题分布,并使用 Gensim 的相似性方法确定两个文档的相似程度。

有关详细信息,请查看 Gensim 的 tutorials 。您需要进行的唯一修改是将 A 和 B 中的文档合并为一个更大的文档,并将索引保​​存在某处,以便以后可以轻松地比较它们。

但是,根据您的数据和目标,其他形式的 LDA(例如相关主题模型)可能更合适。

关于python - 在 Python 中使用 Gensim 进行主题建模,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27308118/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com