gpt4 book ai didi

python - 如何使用 scikit learn 获取特定文档的主题概率?

转载 作者:行者123 更新时间:2023-11-30 08:54:03 24 4
gpt4 key购买 nike

我想对一组文档应用 LDA。它假设计算文档属于某个主题的概率。我做了以下事情:

tfidf_vectorizer = TfidfVectorizer(min_df=12, analyzer="word")
tfidf = tfidf_vectorizer.fit_transform(data_samples)
lda = LatentDirichletAllocation(n_topics=5, max_iter=5,
learning_method='online',
learning_offset=50.,
random_state=0)
lda.fit(tfidf)

现在我想获取 data_sample 中的文档属于给定主题的概率,因为我使用了 5 个主题:[0.2, 0.1 ,0.1, 0.1 , 0.5],有关LDA的文档非常薄弱,您知道这些信息是否容易获取?

问题:我也有同样的问题,请问有人解决了吗?我不知道它是否不允许我在此处添加评论,但它可以让我添加到其他人的帖子中。

最佳答案

我最近也遇到了同样的问题。您可以使用以下方法将模型应用到每个示例:lda.transform(tfidf)

请注意,您需要使用向量 tfidf。

我认为“变换”这个名字来自data transformation的统计概念

关于python - 如何使用 scikit learn 获取特定文档的主题概率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45150329/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com