gpt4 book ai didi

python - 用作 TfidfTransformer 输入的 CountVectorizer 输出与 TfidfTransformer()

转载 作者:太空宇宙 更新时间:2023-11-04 00:04:11 27 4
gpt4 key购买 nike

最近,我开始阅读更多有关 NLP 的内容,并遵循 Python 教程,以进一步了解该主题。在学习其中一个教程时,我观察到他们在每条推文中使用字数统计的稀疏矩阵(使用 CountVectorizer 创建)作为 TfidfTransformer 的输入,TfidfTransformer 处理数据并将其提供给分类器进行训练和预测。

pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', LogisticRegression())
])

由于没有提供任何解释,我无法理解这背后的思考过程……这不就是一个普通的词袋吗?难道不能只使用其中一个函数来完成吗,例如,只使用 Tfidf?

如有任何澄清,我们将不胜感激。

最佳答案

词袋是 CountVectorizer 所做的——用每个句子的词数构建向量。

TfIdf 采用 BoW 并将该矩阵转换为 tf-idf。 – 句子中的频率 + 反向文档频率。

这部分流水线可以用TfidfVectorizer代替– 它实际上是 BoW + TfIdf。 Later 很少在没有 BoW 的情况下使用,所以如果最终你只需要分类器,那么组合版本是有意义的

关于python - 用作 TfidfTransformer 输入的 CountVectorizer 输出与 TfidfTransformer(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54754850/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com