gpt4 book ai didi

python - sklearn 的 TfidfVectorizer 词频?

转载 作者:太空宇宙 更新时间:2023-11-03 16:52:04 26 4
gpt4 key购买 nike

我对 sklearn 的 TfidfVectorizer 在计算每个文档中单词的频率时有一个疑问。

我看到的示例代码是:

>>> from sklearn.feature_extraction.text import TfidfVectorizer

>>> corpus = [

>>> 'The dog ate a sandwich and I ate a sandwich',
>>> 'The wizard transfigured a sandwich'
>>> ]

>>> vectorizer = TfidfVectorizer(stop_words='english')

>>> print vectorizer.fit_transform(corpus).todense()

[[ 0.75458397 0.37729199 0.53689271 0. 0. ]
[ 0. 0. 0.44943642 0.6316672 0.6316672 ]]

我的问题是:如何解释矩阵中的数字?我理解 0 表示“向导”一词在第一个文档中出现 0 次,因此它是 0,但如何解释数字 0.75458397?是第一个文档中“ate”这个词出现的频率吗?或者“吃”这个词在整个语料库中出现的频率?

最佳答案

TF-IDF(意思是“术语频率 - 逆文档频率”)不会为您提供术语在其表示形式中的频率。

TF-IDF 对仅在极少数文档中出现的术语给出高分,对在许多文档中出现的术语给出低分,因此粗略地说,它衡量了给定文档中术语的区分程度。看看this找到 TF-IDF 的精彩描述并更好地了解它正在做什么的资源。

如果您只需要计数,则需要使用CountVectorizer

关于python - sklearn 的 TfidfVectorizer 词频?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35757560/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com