gpt4 book ai didi

scikit-learn - 使用 scikit-learn 为 LDA 查找每个主题的文档数

转载 作者:行者123 更新时间:2023-12-04 10:32:32 25 4
gpt4 key购买 nike

我正在关注 scikit-learn LDA 示例 here并试图了解我如何(如果可能)显示有多少文档被标记为包含这些主题中的每一个。我一直在仔细阅读 LDA 模型的文档 here但不知道我在哪里可以得到这个号码。有没有人以前能用 scikit-learn 做到这一点?

最佳答案

LDA 计算 主题概率列表对于每个文档,因此您可能希望将文档的主题解释为该文档概率最高的主题。

dtm是您的文档术语矩阵和 lda您的潜在狄利克雷分配对象,您可以使用 transform() 探索主题混合功能和 pandas :



docsVStopics = lda.transform(dtm)
docsVStopics = pd.DataFrame(docsVStopics, columns=["Topic"+str(i+1) for i in range(N_TOPICS)])
print("Created a (%dx%d) document-topic matrix." % (docsVStopics.shape[0], docsVStopics.shape[1]))
docsVStopics.head()

您可以轻松找到每个文档最可能的主题:

most_likely_topics = docsVStopics.idxmax(axis=1)

然后得到计数:

 most_likely_topics.groupby(most_likely_topics).count()

关于scikit-learn - 使用 scikit-learn 为 LDA 查找每个主题的文档数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35252762/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com