作者热门文章
- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在试验 Latent Dirichlet Allocation对于主题消歧和分配,我正在寻找建议。
我更愿意为任何程序提供 R 或 Python 前端,但我希望(并接受)我将处理 C。
最佳答案
http://mallet.cs.umass.edu/恕我直言,是最棒的即插即用 LDA 包。它使用 Gibbs 采样来估计主题,并且有一个非常简单的命令行界面,带有很多额外的 bells-n-whiSTLes(一些更复杂的模型,hyper -参数优化等)
最好让算法完成它的工作。可能有 LDA(和 pLSI 等)的变体,可以让你做一些半监督的事情。我现在不知道。
我发现删除停用词和其他真正高频的词似乎大大提高了我的主题质量(通过查看每个主题的热门词而不是任何严格的指标来评估)。我猜词干提取/词形还原也会有所帮助。
关于algorithm - 潜在狄利克雷分配、陷阱、技巧和程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/191248/
我是一名优秀的程序员,十分优秀!