gpt4 book ai didi

java - 如何在MALLET中获取两个文档之间的余弦相似度?

转载 作者:行者123 更新时间:2023-12-02 02:54:56 25 4
gpt4 key购买 nike

我有一个使用 MALLET 训练的 LDA 主题模型,但我想计算两个文档之间的余弦相似度以获得相似度,但我不确定 MALLET 输出的哪个文件要计算余弦。

我的余弦相似度函数运行良好,但不确定我在 MALLET 中比较什么。

如有任何帮助,我们将不胜感激!

最佳答案

每个文档都由其主题组成来表示,因此您必须对它们进行比较。使用 --output-doc-topics 参数来获取所需的文件。

行是文档,列是属于该文档的每个主题的比例。在当前版本 (2.0.8) 中,列按主题 ID 升序排序 - 否则,它们按概率从最高到最低排序。

除了余弦相似度之外,您还应该考虑不同的指标,例如(对称)Kullback-Leibler 散度或 Hellinger 距离。

关于java - 如何在MALLET中获取两个文档之间的余弦相似度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43261659/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com