gpt4 book ai didi

apache-spark - 对于稀疏数据,训练LDA(潜在狄利克雷分配)和预测新文档的更快方法是什么?

转载 作者:行者123 更新时间:2023-11-30 09:08:25 26 4
gpt4 key购买 nike

  1. 关于训练LDA:

    当我们尝试实现LDA时,我们需要构造一个单词-文档矩阵,但是这个矩阵是稀疏数据,因为我们的token字典非常大(几百万个单词),而一个文档有一小部分token( ~ 1000 - 10000 个单词),因此在单词-文档矩阵中,它有很多 0 值,并且需要更长的时间来训练模型。那么我们怎样才能做得更快呢?

  2. 关于预测新文档:

    经过训练,现在我们有了一个新的 LDA 模型,因此我们可以使用它来预测新文档中的哪些主题。但在将新文档输入到我们的模型之前,我们需要将其转换为单词向量,其向量长度将是我们的字典长度(大约数百万个单词)。因此,它会有很多零值,事实上,我们的成本时间随着向量长度的增加而增加。

那么文档-单词矩阵是实现 LDA 的有效方法吗?我们还能有其他更好的办法吗?我需要为我的项目提供一些建议,所以请帮忙

最佳答案

对于稀疏数据,您当然应该使用稀疏向量而不是密集向量。

您只保留非零值,而不是存储所有零。

典型的数据模型(请参阅替代方案的文献)是简单地使用元组列表 (i,v),其中 i 是列索引,v 是非零值。

关于apache-spark - 对于稀疏数据,训练LDA(潜在狄利克雷分配)和预测新文档的更快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46429206/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com