gpt4 book ai didi

python - 使用 scikit-learn 从文档集中查找仅选定单词的 Tf-Idf 分数

转载 作者:行者123 更新时间:2023-11-28 18:32:04 25 4
gpt4 key购买 nike

我有一组文档(存储为 .txt 文件)。我也有一些选定单词的 python 字典。我只想将 tf-idf 分数分配给文档集中的这些词,而不是所有词。如何使用 scikit-learn 或任何其他库完成此操作?

我已经提到了这个blog post但它给出了完整词汇量的分数。

最佳答案

您可以使用 CountVectorizer 来做到这一点,它将文档扫描为文本并转换为术语文档矩阵,并在矩阵上使用 TfidfTrasnformer

这两个步骤也可以结合使用 TfidfVectorizer 一起完成。

这些在 sklearn.feature_extraction.text 模块中 [ link ].

这两个过程将返回相同的稀疏矩阵表示,我认为您可能会通过 TruncatedSVD 对其进行 SVD 变换以获得更小的密集矩阵。

您当然也可以自己做,这需要保留两张 map ,一张用于每个文档,一张用于统计术语。这就是他们在幕后运作的方式。

This page有一些很好的例子。

关于python - 使用 scikit-learn 从文档集中查找仅选定单词的 Tf-Idf 分数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36041738/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com