apache-spark - Spark MLlib LDA，如何推断新的未见文档的主题分布？-6ren

apache-spark - Spark MLlib LDA，如何推断新的未见文档的主题分布？

转载作者：行者123 更新时间：2023-12-03 22:29:52

24

4

我对使用 Spark MLlib 应用 LDA 主题建模感兴趣。我已经检查了 here 中的代码和解释但是我找不到如何使用模型然后在一个新的看不见的文档中找到主题分布。

最佳答案

从 Spark 1.5 开始，此功能尚未为 DistributedLDAModel 实现。 .您需要做的是将您的模型转换为 LocalLDAModel使用 toLocal方法，然后调用 topicDistributions(documents: RDD[(Long, Vector])方法 where documents是新的(即未培训的)文档，如下所示:

newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)

这将不如 this paper 的 EM 算法准确建议，但它会起作用。或者，您可以使用新的在线变分 EM 训练算法，该算法已经产生了 LocalLDAModel .除了速度更快之外，这种新算法也更可取，因为它与用于拟合 DistributedLDAModels 的旧 EM 算法不同。 , 正在优化 Dirichlet 先验的参数 (alpha) 超过文档的主题混合权重。根据 Wallach, et. al. ，alpha 的优化对于获得好的主题非常重要。

关于apache-spark - Spark MLlib LDA，如何推断新的未见文档的主题分布？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32604516/

24

4

0

文章推荐： javascript - 如何比较Sequelize中的两个日期？

文章推荐： php - 播种一对多关系

未见 C# 扩展方法
我知道这是一个愚蠢的错误，但我无法弄清楚发生了什么。我已经创建了一些扩展方法并尝试访问它们，但是默认方法不断被调用: namespace MyProject { public static c
javascript - 未见 mixin 的状态
我有一个 mixin，它具有检查用户是否登录的方法: authenticated: function() { return this.state.currentUser !== null; }
python - Jsonrpc Server实例方法 "user_account_create"未见
我有一个源文件，其中包含以下代码，它使用 python 的 jsonrpclib 模块 server = jsonrpclib.Server(url) try: res = server.user
c# - 未见 Javascript 更新的 ASP.NET TextBox
对于知道自己在做什么的人来说，这会很容易。我有一个启动日历按钮、一个继续按钮和一个日期文本框。该按钮在弹出窗口中启动 JavaScript 日历。该日历使用以下方法将日期返回到 Reservatio

首页

博学

6Ren·AI

商城

apache-spark - Spark MLlib LDA，如何推断新的未见文档的主题分布？