gpt4 book ai didi

algorithm - 潜在狄利克雷分配、陷阱、技巧和程序

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:17:24 25 4
gpt4 key购买 nike

我正在试验 Latent Dirichlet Allocation对于主题消歧和分配,我正在寻找建议。

  1. 哪个程序是“最好的”,其中最好的是最容易使用、最好的先验估计、快速的组合
  2. 我如何结合我对时事性的直觉。假设我想我知道语料库中的某些项目确实属于同一类别,就像同一作者的所有文章一样。我可以将其添加到分析中吗?
  3. 在开始之前我应该​​知道任何意想不到的陷阱或提示吗?

我更愿意为任何程序提供 R 或 Python 前端,但我希望(并接受)我将处理 C。

最佳答案

  1. http://mallet.cs.umass.edu/恕我直言,是最棒的即插即用 LDA 包。它使用 Gibbs 采样来估计主题,并且有一个非常简单的命令行界面,带有很多额外的 bells-n-whiSTLes(一些更复杂的模型,hyper -参数优化等)

  2. 最好让算法完成它的工作。可能有 LDA(和 pLSI 等)的变体,可以让你做一些半监督的事情。我现在不知道。

  3. 我发现删除停用词和其他真正高频的词似乎大大提高了我的主题质量(通过查看每个主题的热门词而不是任何严格的指标来评估)。我猜词干提取/词形还原也会有所帮助。

关于algorithm - 潜在狄利克雷分配、陷阱、技巧和程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/191248/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com