python - Tfidftransformer 和 Tfidfvectorizer 有什么区别？-6ren

python - Tfidftransformer 和 Tfidfvectorizer 有什么区别？

转载作者：行者123 更新时间：2023-12-01 23:58:41

26

4

我对 Tfidftransformer 和 Tfidfvectorizer 的使用感到有点困惑，因为它们看起来很相似。一个使用单词将矩阵转换 (Tfidfvectorizer)，另一个使用已经转换的文本 (using CountVectorizer) 到矩阵。

谁能解释一下这两者的区别？

最佳答案

CountVectorizer + TfidfTransformer = TfidfVectorizer 这是简单实用的理解方式。 TfidfVectorizer 一步执行 CountVectorizer 和 TfidfTransformer。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline

# transformer a
a = Pipeline(steps =[
        ('count_verctorizer',  CountVectorizer()),  
        ('tfidf', TfidfTransformer()),
])

# transformer b
b = TfidfVectorizer()

a 和 b 转换器将执行相同的转换。

如果在向模型提供特征之前预处理仅包括 TFIDF，则 b 将是最佳选择。但有时我们想拆分预处理。例如，我们希望在执行逆文档频率之前仅保留最佳术语。在这种时候，我们会选择 a。因为我们可以执行 CountVectorizer 然后在 IDF 之前进行额外的预处理。例如


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_selection import chi2
from sklearn.feature_selection import SelectKBest
from sklearn.pipeline import Pipeline
from sklearn.linear_model import  LogisticRegressionCV

# do counter terms and allow max 150k terms with 1-2 Ngrams
# select the best 10K (reducing the size of our features)
# do the IDF and the pass to our model

hisia = Pipeline(steps =[
        ('count_verctorizer',  CountVectorizer(ngram_range=(1, 2), 
                                 max_features=150000,

                                )
        ),
        ('feature_selector', SelectKBest(chi2, k=10000)),
        ('tfidf', TfidfTransformer(sublinear_tf=True)),
        ('logistic_regression', LogisticRegressionCV(cv=5,
                                                    solver='saga',
                                                    scoring='accuracy',
                                                    max_iter=200,
                                                    n_jobs=-1,
                                                    random_state=42, 
                                                    verbose=0))
])

在示例中，我们在将术语传递给 IDF 之前对其进行了特征选择。这是可能的，因为我们可以通过首先执行 CountVectorizer 和 TfidfTransformer

来拆分 TFIDF

关于python - Tfidftransformer 和 Tfidfvectorizer 有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62241331/

26

4

0

文章推荐： arduino - 如何在类中实例化 ESP AsyncWebServer？ (arduino esp8266)

python - 用作 TfidfTransformer 输入的 CountVectorizer 输出与 TfidfTransformer()
最近，我开始阅读更多有关 NLP 的内容，并遵循 Python 教程，以进一步了解该主题。在学习其中一个教程时，我观察到他们在每条推文中使用字数统计的稀疏矩阵(使用 CountVectorizer 创
python - Tfidftransformer 和 Tfidfvectorizer 有什么区别？
我对 Tfidftransformer 和 Tfidfvectorizer 的使用感到有点困惑，因为它们看起来很相似。一个使用单词将矩阵转换 (Tfidfvectorizer)，另一个使用已经转换的文
python - Tfidftransformer 和 Tfidfvectorizer 有什么区别？
我对 Tfidftransformer 和 Tfidfvectorizer 的使用感到有点困惑，因为它们看起来很相似。一个使用单词将矩阵转换 (Tfidfvectorizer)，另一个使用已经转换的文
python - 如何从 scikit-learn 中的 TfidfTransformer 获得最匹配的特征名称？
下面的代码片段显示了在 scikit-learn 中基于 TF-IDF 的评分测试文档。如何获得 x_test_tfidf 中每一行的前 5 个词汇元素及其分数？我知道 count_vect.ge
python - sklearn 中从 CountVectorizer 到 TfidfTransformer 的转换
我正在 sklearn 中处理大量文本数据。首先，我需要向量化文本上下文(字数)，然后执行 TfidfTransformer。我有以下代码似乎没有将 CountVectorizer 的输出带到 Tfi
python - 在 sklearn 中创建 TfidfTransformer 时， 'use_idf' 究竟做了什么？
我正在使用 Python 2.7 中 sklearn 包中的 TfidfTransformer。当我对这些论点感到满意时，我对 use_idf 变得有点困惑，如: TfidfVectorizer(u
python-2.7 - 带有 HashingVectorizer 和 TfidfTransformer 的 SGDClassifier
我想了解是否可以使用 HashingVectorizer 和 TfidfTransformer 训练在线 SGDClassifier(使用 partial_fit)。简单地将它们加入管道是行不通的，因
python - 将 CountVectorizer 和 TfidfTransformer 稀疏矩阵转换为单独的 Pandas Dataframe 行
问题:将 sklearn 的 CountVectorizer 和 TfidfTransformer 生成的稀疏矩阵转换为 Pandas DataFrame 列的最佳方法是什么，每个二元组及其对应的频率
python-3.x - 如何使用 Countvectorizer() 和 TfidfTransformer() 在 sklearn 中保存分类器
下面是分类器的一些代码。我使用pickle来保存和加载这个page中指示的分类器.但是，当我加载它使用它时，我无法使用CountVectorizer()和 TfidfTransformer()将原始文
python-3.x - 如何在大数据集(Train、Dev、Test)上使用 CountVectorizer 和 TfidfTransformer？
仅使用以下每个功能模板来实现CountVectorizer 和 TfIdTransformer。我有训练、开发、测试数据。这是我的示例列车数据: Train_dataset = ['This is

首页

博学

6Ren·AI

商城

python - Tfidftransformer 和 Tfidfvectorizer 有什么区别？