gpt4 book ai didi

python - scikit-learn - 我应该用 TF 还是 TF-IDF 拟合模型?

转载 作者:行者123 更新时间:2023-11-28 16:21:07 26 4
gpt4 key购买 nike

我正在尝试找出在 sklearn (Python) 上拟合不同概率模型(如 Latent Dirichlet Allocation、Non-negative Matrix Factorization 等)的最佳方法。

看了sklearn文档中的例子,我想知道为什么LDA模型适合TF数组,而NMF模型适合TF-IDF数组。这个选择有明确的原因吗?

示例如下:http://scikit-learn.org/stable/auto_examples/applications/topics_extraction_with_nmf_lda.html#sphx-glr-auto-examples-applications-topics-extraction-with-nmf-lda-py

此外,关于如何找到适合我的模型的最佳参数(迭代次数、主题数量...)的任何提示都被广泛接受。

提前谢谢你。

最佳答案

要弄清楚答案,必须首先检查这两个模型的定义。

LDA 是一种概率生成模型,它通过为每个单词采样一个主题,然后从采样的主题中提取一个单词来生成文档。生成的文档表示为词袋。

NMF 在其一般定义中是搜索 2 个矩阵 W 和 H,使得 W*H=V 其中 V 是观察到的矩阵。这些矩阵的唯一要求是它们的所有元素都必须是非负数。

从上面的定义可以清楚地看出,在 LDA 中只能使用词袋频率计数,因为实数向量没有意义。我们是否创造了一个词 1.2 次?另一方面,我们可以对 NMF 使用任何非负表示,并且在示例中使用了 tf-idf。

至于选择迭代次数,对于scikit learn中的NMF我不知道停止标准,虽然我相信这是损失函数小于阈值的相对改进所以你必须试验.对于 LDA,我建议手动检查保留验证集中对数似然的改进,并在它低于阈值时停止。

其余参数在很大程度上取决于数据,因此我建议,正如@rpd 所建议的那样,您进行参数搜索。

综上所述,LDA只能生成频率,而NMF可以生成任意非负矩阵

关于python - scikit-learn - 我应该用 TF 还是 TF-IDF 拟合模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40171208/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com