gpt4 book ai didi

nlp - 主题模型中的动态主题数

转载 作者:行者123 更新时间:2023-12-03 12:12:29 25 4
gpt4 key购买 nike

我是主题建模的新手。
我的目标是从文档中找到关键主题。我打算为此目的使用 lda。但是在 lda 中应该预定义主题的数量。我相信如果来自其他领域的文档不在训练语料库中,它不会给出正确的结果。有什么替代解决方案吗?我的想法是否正确?

最佳答案

学习这些主题的两个很好的候选者是潜在狄利克雷分配 (LDA) 和分层狄利克雷过程 (HDP) 主题模型。

对于 LDA,主题的数量 K 是固定的,并假设提前已知。快速推理算法,例如在 scikit 中实现的在线变分贝叶斯 (VB) 算法和 gensim支持在非常大的数据集上进行训练(例如纽约时报或维基百科)通过在大型语料库上进行训练并将 K 设置高,我们可以避免过拟合问题并为样本外文档学习有意义的主题。对于 LDA,交叉验证通常用于通过评估不同主题数量的困惑度并选择最小化困惑度的 K 来设置 K。

或者,HDP 主题模型(在 gensim 中实现)自动从数据中学习主题的数量。通过设置集中参数和截断级别,模型可以推断出主题的数量。高效的推理算法,例如 HDP 的在线变分推理,可以对海量数据集进行训练并发现有意义的主题。

关于nlp - 主题模型中的动态主题数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40637537/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com