- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对使用 Spark MLlib 应用 LDA 主题建模感兴趣。我已经检查了 here 中的代码和解释但是我找不到如何使用模型然后在一个新的看不见的文档中找到主题分布。
最佳答案
从 Spark 1.5 开始,此功能尚未为 DistributedLDAModel
实现。 .您需要做的是将您的模型转换为 LocalLDAModel
使用 toLocal
方法,然后调用 topicDistributions(documents: RDD[(Long, Vector])
方法 where documents
是新的(即未培训的)文档,如下所示:
newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)
LocalLDAModel
.除了速度更快之外,这种新算法也更可取,因为它与用于拟合
DistributedLDAModels
的旧 EM 算法不同。 , 正在优化 Dirichlet 先验的参数 (alpha) 超过文档的主题混合权重。根据
Wallach, et. al. ,alpha 的优化对于获得好的主题非常重要。
关于apache-spark - Spark MLlib LDA,如何推断新的未见文档的主题分布?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32604516/
我知道这是一个愚蠢的错误,但我无法弄清楚发生了什么。我已经创建了一些扩展方法并尝试访问它们,但是默认方法不断被调用: namespace MyProject { public static c
我有一个 mixin,它具有检查用户是否登录的方法: authenticated: function() { return this.state.currentUser !== null; }
我有一个源文件,其中包含以下代码,它使用 python 的 jsonrpclib 模块 server = jsonrpclib.Server(url) try: res = server.user
对于知道自己在做什么的人来说,这会很容易。 我有一个启动日历按钮、一个继续按钮和一个日期文本框。该按钮在弹出窗口中启动 JavaScript 日历。该日历使用以下方法将日期返回到 Reservatio
我是一名优秀的程序员,十分优秀!