gpt4 book ai didi

apache - 确定 Mahout LDA 输出上的文档 ID

转载 作者:行者123 更新时间:2023-11-30 08:50:37 26 4
gpt4 key购买 nike

我已成功运行 mahout lda,并使用命令 mahout ldatopics 显示输出。

例如,我的主题是科学和体育。那么输出将是这样的:主题 0篮球,玩,棒球主题1研究,学习,哲学

我现在的问题是如何识别单个文章的组或簇。是否有 ID 号或某种跟踪,以便我添加的每一篇新文章都会被分组或添加到特定的集群/主题。

如果我已经拥有集群,下一步是什么?

谢谢

最佳答案

我一直在浏览源代码,但我找不到任何提及用于计算给定文档的主题概率的 theta 矩阵,并且因为没有输入 Alpha 值来估计每个文档的主题和LDAState 类有一个 logProbWordGivenTopic(int, int) 方法,但没有像 getProbTopicGivenDocument() 我只能假设 LDA 的 mahout 实现没有处理发现特定文档的主题分布。如果其他人更了解的话,我很乐意犯错。

关于apache - 确定 Mahout LDA 输出上的文档 ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5114826/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com