gpt4 book ai didi

lda - 大数据集主题建模工具 (30GB)

转载 作者:行者123 更新时间:2023-12-04 15:50:15 26 4
gpt4 key购买 nike

我正在寻找一些适用于大型数据集的主题建模工具。

我当前的训练数据集是 30 GB。我试过 MALLET topic modeling ,但我总是得到 OutOfMemoryError。

如果您有任何提示,请告诉我。

最佳答案

有许多选项可供您选择,并且这种响应与它们的比较方式无关。

我认为对于如此大的数据集,重要的是使用的近似后验推理方法,而不一定是软件实现。根据 this paper ,在线变分贝叶斯推理在时间和空间方面比 Gibbs 采样更有效。虽然我从未使用过它,但 gensim包看起来不错。是python的,项目的webpage有深入教程.

对于直接来自源代码的代码,请参阅 David Blei 的网页,他是 LDA 的作者之一。型号, here .他链接到多种语言(R、Java、C++)的多个实现。

关于lda - 大数据集主题建模工具 (30GB),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24734274/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com