gpt4 book ai didi

python - 在 Scikit-learn 的 LDA 实现中, "perplexity"(或 "score")应该向上还是向下?

转载 作者:行者123 更新时间:2023-12-01 09:10:04 40 4
gpt4 key购买 nike

我想知道 Scikit-learn 的 LDA 实现中的困惑度和分数意味着什么。这些功能很晦涩。

至少,我需要知道当模型更好时这些值是增加还是减少。我已经搜索过,但有些不清楚。我觉得困惑度应该下降,但我想要一个关于这些值应该如何上升或下降的明确答案。

最佳答案

困惑度是衡量模型预测样本效果的指标。

根据Latent Dirichlet Allocation作者:Blei、Ng 和 Jordan,

[W]e computed the perplexity of a held-out test set to evaluate the models. The perplexity, used by convention in language modeling, is monotonically decreasing in the likelihood of the test data, and is algebraicly equivalent to the inverse of the geometric mean per-word likelihood. A lower perplexity score indicates better generalization performance.

这可以通过论文中的下图看出:

enter image description here

从本质上讲,由于困惑度相当于几何平均值的倒数,因此较低的困惑度意味着数据更有可能。因此,随着主题数量的增加,模型的困惑应该减少。

关于python - 在 Scikit-learn 的 LDA 实现中, "perplexity"(或 "score")应该向上还是向下?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51735011/

40 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com