- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个由函数 lda.collapsed.gibbs.sampler 生成的模型,来自 lda 包,我需要知道顶部单词的“相关性”。使用时
top.topic.words(result$topics, 10, by.score=TRUE)
我得到了每个主题的前 10 个词的列表,但我想查看这 10 个词所代表的主题的百分比。我猜信息是存在的,因为有一个“分数”,但我对吉布斯采样器的统计方法不是很熟悉。
提前致谢!
最佳答案
我想这样的事情可能是你想要的:
for (ii in 1:nrow(result$topics)) {
print(
head(
cumsum(
sort(result$topics[ii,], decreasing=TRUE)
),
n = 20
) / result$topic_sums[ii]
)
}
让我们分解一下。如果你想要吉布斯分配的分数,那很容易。 LDA 例程返回每个(单词、主题)对的分配数。因此,您所要做的就是对 result$topics
的每一行进行排序,以获得排名靠前的单词(这实际上是 top.topic.words
所做的,如果您设置 by.score=FALSE
).一旦你按排序顺序排列,你就可以看到,对于每个主题,该词与整个主题相比出现了多少次。为此,我除以 result$topic_sums
,其中包含该主题的作业总数。最后,我使用了 cumsum
,这样您就可以看到该主题中单词的运行总权重。
关于r - lda.collapsed.gibbs.sampler 模型和热门词排名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21341978/
我正在尝试为 R 中的贝叶斯回归模型编写 Gibbs 采样器,但在运行代码时遇到问题。 sigma.update 函数中的测试版似乎发生了一些事情。当我运行代码时,我收到一条错误消息“x %*% be
我是编程和生物信息学的初学者。因此,非常感谢您的理解。我尝试使用 Gibbs 采样开发一个用于主题搜索的 python 脚本,如 Coursera 类(class)“Finding Hidden
我有一个由函数 lda.collapsed.gibbs.sampler 生成的模型,来自 lda 包,我需要知道顶部单词的“相关性”。使用时 top.topic.words(result$to
作为练习,我重写了博文 Gibbs sampler in various languages (revisited) 中的示例程序通过达伦威尔金森。 代码出现在下面。这段代码在我(5 岁)机器上运行大
我已经实现了一个 Gibbs 采样器来生成纹理图像。根据beta参数(shape(4)数组),我们可以生成各种纹理。 这是我使用 Numpy 的初始函数: def gibbs_sampler(img_
阅读docs of scikit-learn我了解到 DPGMM 类背后的实现使用变分推理而不是传统的 Gibbs 采样。 尽管如此,在通过 this Edwin Chen's popular pos
我正在尝试求解一个非线性系统,该系统将使用拉格朗日方法和指数公式来最小化吉布斯自由能。方程中已包含指数形式 Y1...Y6 的拉格朗日量,随后将其转换为化学物质 n1...n9 的摩尔数。 问题是 f
我想从后验采样,其中 LambdaA 和 LambdaB 是 A 和 B 的指数率。另外,y 是 r.v. 的观测值。 后验由 并且出于数字原因,我正在获取此函数的日志。 数据: n1 ,0,log(
概览:我对并行化(跨链)Gibbs 采样器感兴趣,以解决我遇到的非平凡回归问题 already implemented通过 Rcpp/RcppEigen 串行。我已阅读 RcppParallel 的文
我正在寻找一个多变量 GMM 的 C++ 实现,它使用基于 Gibbs 采样的方法来拟合/分类(而不是通常的基于 EM),以便能够充分利用先验信息并添加在限制条件下。通常称为狄利克雷过程高斯混合模型或
更新:内存 View 获胜。Cython 使用类型化内存 View :0.0253449 特别感谢 lothario,他指出了几个关键的变化。 荒谬。当然现在的问题是,似乎不能对它们做太多算术(加法和
我是一名优秀的程序员,十分优秀!