gpt4 book ai didi

r - 预测新数据的 LDA 主题

转载 作者:行者123 更新时间:2023-12-03 13:28:26 27 4
gpt4 key购买 nike

看起来这个问题之前可能已经被问过几次( here and here ),但尚未得到回答。如评论所示,我希望这是由于先前所问问题的模棱两可。如果我再次提出类似问题而违反协议(protocol),我深表歉意,我只是假设这些问题不会看到任何新答案。

无论如何,我是潜在狄利克雷分配的新手,并且正在探索将其用作文本数据降维的一种手段。最终,我想从一个非常大的词袋中提取一组较小的主题,并使用这些主题作为模型中的几个变量来构建一个分类模型。我已经成功地在训练集上运行 LDA,但我遇到的问题是能够预测哪些相同的主题出现在其他一些测试数据集中。我现在正在使用 R 的 topicmodels 包,但如果有其他方法可以使用其他包,我也对此持开放态度。

这是我正在尝试做的一个例子:

library(topicmodels)
data(AssociatedPress)

train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]

train.lda <- LDA(train,5)
topics(train.lda)

#how can I predict the most likely topic(s) from "train.lda" for each document in "test"?

最佳答案

在 Ben 出色的文档阅读技巧的帮助下,我相信使用后验 () 函数可以做到这一点。

library(topicmodels)
data(AssociatedPress)

train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]

train.lda <- LDA(train,5)
(train.topics <- topics(train.lda))
# [1] 4 5 5 1 2 3 1 2 1 2 1 3 2 3 3 2 2 5 3 4 5 3 1 2 3 1 4 4 2 5 3 2 4 5 1 5 4 3 1 3 4 3 2 1 4 2 4 3 1 2 4 3 1 1 4 4 5
# [58] 3 5 3 3 5 3 2 3 4 4 3 4 5 1 2 3 4 3 5 5 3 1 2 5 5 3 1 4 2 3 1 3 2 5 4 5 5 1 1 1 4 4 3

test.topics <- posterior(train.lda,test)
(test.topics <- apply(test.topics$topics, 1, which.max))
# [1] 3 5 5 5 2 4 5 4 2 2 3 1 3 3 2 4 3 1 5 3 5 3 1 2 2 3 4 1 2 2 4 4 3 3 5 5 5 2 2 5 2 3 2 3 3 5 5 1 2 2

关于r - 预测新数据的 LDA 主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16115102/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com