gpt4 book ai didi

apache-spark - Spark MLlib LDA,如何推断新的未见文档的主题分布?

转载 作者:行者123 更新时间:2023-12-03 22:29:52 24 4
gpt4 key购买 nike

我对使用 Spark MLlib 应用 LDA 主题建模感兴趣。我已经检查了 here 中的代码和解释但是我找不到如何使用模型然后在一个新的看不见的文档中找到主题分布。

最佳答案

从 Spark 1.5 开始,此功能尚未为 DistributedLDAModel 实现。 .您需要做的是将您的模型转换为 LocalLDAModel使用 toLocal方法,然后调用 topicDistributions(documents: RDD[(Long, Vector])方法 where documents是新的(即未培训的)文档,如下所示:

newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)

这将不如 this paper 的 EM 算法准确建议,但它会起作用。或者,您可以使用新的在线变分 EM 训练算法,该算法已经产生了 LocalLDAModel .除了速度更快之外,这种新算法也更可取,因为它与用于拟合 DistributedLDAModels 的旧 EM 算法不同。 , 正在优化 Dirichlet 先验的参数 (alpha) 超过文档的主题混合权重。根据 Wallach, et. al. ,alpha 的优化对于获得好的主题非常重要。

关于apache-spark - Spark MLlib LDA,如何推断新的未见文档的主题分布?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32604516/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com