gpt4 book ai didi

r - lda.collapsed.gibbs.sampler 模型和热门词排名

转载 作者:行者123 更新时间:2023-12-04 22:46:50 27 4
gpt4 key购买 nike

我有一个由函数 lda.collapsed.gibbs.sampler 生成的模型,来自 lda 包,我需要知道顶部单词的“相关性”。使用时

    top.topic.words(result$topics, 10, by.score=TRUE)

我得到了每个主题的前 10 个词的列表,但我想查看这 10 个词所代表的主题的百分比。我猜信息是存在的,因为有一个“分数”,但我对吉布斯采样器的统计方法不是很熟悉。

提前致谢!

最佳答案

我想这样的事情可能是你想要的:

for (ii in 1:nrow(result$topics)) {
print(
head(
cumsum(
sort(result$topics[ii,], decreasing=TRUE)
),
n = 20
) / result$topic_sums[ii]
)
}

让我们分解一下。如果你想要吉布斯分配的分数,那很容易。 LDA 例程返回每个(单词、主题)对的分配数。因此,您所要做的就是对 result$topics 的每一行进行排序,以获得排名靠前的单词(这实际上是 top.topic.words 所做的,如果您设置 by.score=FALSE).一旦你按排序顺序排列,你就可以看到,对于每个主题,该词与整个主题相比出现了多少次。为此,我除以 result$topic_sums,其中包含该主题的作业总数。最后,我使用了 cumsum,这样您就可以看到该主题中单词的运行总权重。

关于r - lda.collapsed.gibbs.sampler 模型和热门词排名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21341978/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com