gpt4 book ai didi

machine-learning - scikit-learn TfidfVectorizer 含义?

转载 作者:行者123 更新时间:2023-11-30 08:22:07 31 4
gpt4 key购买 nike

我正在阅读有关 TfidfVectorizer implementation 的内容对于 scikit-learn,我不明白该方法的输出是什么,例如:

new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Jane loves to play baseball']
new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)
print tfidf_vectorizer.vocabulary_
print new_term_freq_matrix.todense()

输出:

{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]

什么是?(例如:u'me': 8):

{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}

这是一个矩阵还是一个向量?,我不明白什么告诉我输出:

[[ 0.57735027  0.57735027  0.57735027  0.          0.          0.          0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]

有人可以更详细地解释我这些输出吗?

谢谢!

最佳答案

TfidfVectorizer - 将文本转换为可用作估计器输入的特征向量。

vocabulary_ 是一个字典,它将每个标记(单词)转换为矩阵中的特征索引,每个唯一的标记都有一个特征索引。

What is?(e.g.: u'me': 8 )

它告诉您标记“me”在输出矩阵中表示为特征编号 8。

is this a matrix or just a vector?

每个句子都是一个向量,您输入的句子是包含 3 个向量的矩阵。在每个向量中,数字(权重)代表特征 tf-idf 分数。例如:'julie': 4 --> 告诉您在每个句子中出现 'Julie' 时您将拥有非零 (tf-idf) 权重。正如您在第二个向量中看到的:

[ 0.0.68091856 0.0.0.51785612 0.51785612 0.0.0.0.0.]

第 5 个元素的得分为 0.51785612 - “Julie”的 tf-idf 得分。有关 Tf-Idf 评分的更多信息,请阅读此处:http://en.wikipedia.org/wiki/Tf%E2%80%93idf

关于machine-learning - scikit-learn TfidfVectorizer 含义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25902119/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com