gpt4 book ai didi

nlp - 关于潜在狄利克雷分配(MALLET)的问题

转载 作者:行者123 更新时间:2023-12-03 04:33:18 27 4
gpt4 key购买 nike

老实说,我对 LDA 并不熟悉,但我的一个项目需要使用 MALLET 的主题建模。

我的问题是:给定特定时间戳内的一组文档作为主题模型的训练数据,使用模型(使用推理器)来跟踪主题趋势是否合适,对于文档+或-训练数据的时间戳。我的意思是,如果在模型构建阶段,我们只提供需要分析的数据集的子集,那么 MALLET 提供的主题分布是否是一个合适的指标来跟踪主题随时间的流行程度。

谢谢。

最佳答案

你熟悉Latent Semantic Indexing吗? ?潜在狄利克雷分析只是做同一件事的不同方式,所以 LSI 或 pLSI您可能是了解 LDA 目标的更简单的起点。

所有三种技术都以无监督的方式锁定主题(您告诉它要查找多少个主题),然后假设每个文档以不同的比例涵盖每个主题。根据您分配的主题数量,它们的行为可能更像是您的语料库的子字段,并且可能不像人们在考虑热门主题时所想到的“主题”那么具体。新闻。

不知何故,我怀疑您想假设每个文档代表一个特定主题。 LSI/pLSI/LDA 不这样做——它们将每个文档建模为主题的混合。这并不意味着你不会得到好的结果,或者这不值得尝试,但我怀疑(尽管我对 LSI 文献没有全面的了解)你将解决一个全新的研究问题.

(FWIW,我怀疑使用像 k-Means 这样的聚类方法更容易模拟每个文档只有一个主题的假设。)

关于nlp - 关于潜在狄利克雷分配(MALLET)的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4143660/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com