gpt4 book ai didi

python - tfidf 将测试数据拟合到训练数据后如何进行转换?

转载 作者:太空宇宙 更新时间:2023-11-04 01:56:36 26 4
gpt4 key购买 nike

我正在使用以下代码:

pipeline = Pipeline([('vect', 
TfidfVectorizer( ngram_range=(1,2),
stop_words="english",
sublinear_tf=True ,
use_idf=True,
norm='l2' )),
('reduce_dim',
SelectPercentile(f_classif, 90)),
('clf',
SVC(kernel='linear',C=1.0,
probability=True, max_iter=70000,
class_weight='balanced'))])

model = pipeline.fit(X_train,y_train)
model.predict(X_test)

x=vectorizer.fit_transform(X_train_text)
y=vectorizer.transform(X_test_text)

根据我的理解,pipeline.fit() 将 tfidf 拟合到训练数据以及何时在 X_test 上调用 model.predict() >,它仅根据拟合的火车数据进行 tfidf 转换。

由于 tf idf 通过获取文档和语料库中的单词频率来工作,我想知道 .fit_transform.transform 函数下面发生了什么。

最佳答案

1) 非常接近您的问题,您可以在这里找到:What is the difference between TfidfVectorizer.fit_transfrom and tfidf.transform?

2)tfidf变换是在fit-transform内部完成的,这里的predict不对应tfidf vectorizer,因为它没有这样的功能,是method的 SVC。

关于python - tfidf 将测试数据拟合到训练数据后如何进行转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56680221/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com