r - lda.collapsed.gibbs.sampler 模型和热门词排名-6ren

r - lda.collapsed.gibbs.sampler 模型和热门词排名

转载作者：行者123 更新时间：2023-12-04 22:46:50

27

4

我有一个由函数 lda.collapsed.gibbs.sampler 生成的模型，来自 lda 包，我需要知道顶部单词的“相关性”。使用时

    top.topic.words(result$topics, 10, by.score=TRUE)

我得到了每个主题的前 10 个词的列表，但我想查看这 10 个词所代表的主题的百分比。我猜信息是存在的，因为有一个“分数”，但我对吉布斯采样器的统计方法不是很熟悉。

提前致谢!

最佳答案

我想这样的事情可能是你想要的:

for (ii in 1:nrow(result$topics)) {
  print(
    head(
      cumsum(
        sort(result$topics[ii,], decreasing=TRUE)
      ),
      n = 20
    ) / result$topic_sums[ii]
  ) 
}

让我们分解一下。如果你想要吉布斯分配的分数，那很容易。 LDA 例程返回每个(单词、主题)对的分配数。因此，您所要做的就是对 result$topics 的每一行进行排序，以获得排名靠前的单词(这实际上是 top.topic.words 所做的，如果您设置 by.score=FALSE).一旦你按排序顺序排列，你就可以看到，对于每个主题，该词与整个主题相比出现了多少次。为此，我除以 result$topic_sums，其中包含该主题的作业总数。最后，我使用了 cumsum，这样您就可以看到该主题中单词的运行总权重。

关于r - lda.collapsed.gibbs.sampler 模型和热门词排名，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21341978/

27

4

0

文章推荐： Caliburn.Micro 和 Bootstrapper/BootstrapperBase 类

文章推荐： video - 以 ffmpeg -i %04d.png 模式重复图像

文章推荐： amazon-s3 - 如何从媒体文件中判断它是视频还是音频？

文章推荐： session - Controller 中的 Laravel 4 测试 session

贝叶斯回归的 R Gibbs 采样器
我正在尝试为 R 中的贝叶斯回归模型编写 Gibbs 采样器，但在运行代码时遇到问题。 sigma.update 函数中的测试版似乎发生了一些事情。当我运行代码时，我收到一条错误消息“x %*% be
python - 使用 Gibbs 采样器进行基序搜索
我是编程和生物信息学的初学者。因此，非常感谢您的理解。我尝试使用 Gibbs 采样开发一个用于主题搜索的 python 脚本，如 Coursera 类(class)“Finding Hidden
r - lda.collapsed.gibbs.sampler 模型和热门词排名
我有一个由函数 lda.collapsed.gibbs.sampler 生成的模型，来自 lda 包，我需要知道顶部单词的“相关性”。使用时 top.topic.words(result$to
performance - 优化简单的 Common Lisp gibbs 采样器程序
作为练习，我重写了博文 Gibbs sampler in various languages (revisited) 中的示例程序通过达伦威尔金森。代码出现在下面。这段代码在我(5 岁)机器上运行大
python - Cython Gibbs 采样器比 numpy 采样器稍慢
我已经实现了一个 Gibbs 采样器来生成纹理图像。根据beta参数(shape(4)数组)，我们可以生成各种纹理。这是我使用 Numpy 的初始函数: def gibbs_sampler(img_
Scikit-learn 实现狄利克雷过程高斯混合模型 : Gibbs sampling or Variational inference?
阅读docs of scikit-learn我了解到 DPGMM 类背后的实现使用变分推理而不是传统的 Gibbs 采样。尽管如此，在通过 this Edwin Chen's popular pos
python - 求解非线性方程: add constraints to Gibbs free energy problem
我正在尝试求解一个非线性系统，该系统将使用拉格朗日方法和指数公式来最小化吉布斯自由能。方程中已包含指数形式 Y1...Y6 的拉格朗日量，随后将其转换为化学物质 n1...n9 的摩尔数。问题是 f
mcmc - R - 使用 gibbs 的 RW metropolis 失败
我想从后验采样，其中 LambdaA 和 LambdaB 是 A 和 B 的指数率。另外，y 是 r.v. 的观测值。后验由并且出于数字原因，我正在获取此函数的日志。数据: n1 ,0,log(
r - 在 R : RcppThread vs. RcppParallel 中并行化一个非平凡的 Gibbs 采样器
概览:我对并行化(跨链)Gibbs 采样器感兴趣，以解决我遇到的非平凡回归问题 already implemented通过 Rcpp/RcppEigen 串行。我已阅读 RcppParallel 的文
使用 Gibbs 采样器的 GMM 的 C++ 实现，即 Dirichlet 过程高斯混合模型
我正在寻找一个多变量 GMM 的 C++ 实现，它使用基于 Gibbs 采样的方法来拟合/分类(而不是通常的基于 EM)，以便能够充分利用先验信息并添加在限制条件下。通常称为狄利克雷过程高斯混合模型或
cython - Bakeoff 第 1 部分 Python vs Cython vs Cython 类型化内存 View : LDA by Gibbs Sampling
更新:内存 View 获胜。Cython 使用类型化内存 View :0.0253449 特别感谢 lothario，他指出了几个关键的变化。荒谬。当然现在的问题是，似乎不能对它们做太多算术(加法和

首页

博学

6Ren·AI

商城

r - lda.collapsed.gibbs.sampler 模型和热门词排名