python - 如何使用 MinMaxScaler sklearn 标准化训练和测试数据-6ren

python - 如何使用 MinMaxScaler sklearn 标准化训练和测试数据

转载作者：行者123 更新时间：2023-11-30 08:27:12

25

4

所以，我有这个疑问，并一直在寻找答案。所以问题是当我使用时，

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()

df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y','Y','Y','Y','N','N','N','Y','N','Y','N','N','Y','Y']})

df[['A','B']] = min_max_scaler.fit_transform(df[['A','B']])
df['C'] = df['C'].apply(lambda x: 0 if x.strip()=='N' else 1)

之后，我将训练和测试模型(A、B 作为特征，C 作为标签)并获得一些准确度分数。现在我的疑问是，当我必须预测新数据集的标签时会发生什么。说，

df = pd.DataFrame({'A':[25,67,24,76,23],'B':[2,54,22,75,19]})

因为当我标准化列时，A 和 B 的值将根据新数据而不是模型将要训练的数据进行更改。所以，现在我的数据在如下数据准备步骤之后将是。

data[['A','B']] = min_max_scaler.fit_transform(data[['A','B']])

A 和 B 的值将根据 的 Max 和 Min 值而变化df[['A','B']]. df[['A','B']] 的数据准备是相对于 df[['A','B'' 的 Min Max ]]。

对于不同的数字关联，数据准备如何有效？我不明白这里的预测如何正确。

最佳答案

您应该使用`训练`数据拟合`MinMaxScaler`，然后在预测之前将缩放器应用于`测试`数据。

<小时/>

总结:

第 1 步:将scaler 安装到TRAINING 数据
第 2 步:使用scaler转换 TRAINING 数据
第 3 步:使用转换后的训练数据来拟合预测模型
第 4 步:使用scaler转换 TEST 数据
第 5 步:使用训练模型(第 3 步)和转换后的测试数据(第 4 步)进行预测。

<小时/>

使用您的数据的示例:

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
#training data
df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y','Y','Y','Y','N','N','N','Y','N','Y','N','N','Y','Y']})
#fit and transform the training data and use them for the model training
df[['A','B']] = min_max_scaler.fit_transform(df[['A','B']])
df['C'] = df['C'].apply(lambda x: 0 if x.strip()=='N' else 1)

#fit the model
model.fit(df['A','B'])

#after the model training on the transformed training data define the testing data df_test
df_test = pd.DataFrame({'A':[25,67,24,76,23],'B':[2,54,22,75,19]})

#before the prediction of the test data, ONLY APPLY the scaler on them
df_test[['A','B']] = min_max_scaler.transform(df_test[['A','B']])

#test the model
y_predicted_from_model = model.predict(df_test['A','B'])

<小时/>

使用虹膜数据的示例:

import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import SVC

data = datasets.load_iris()
X = data.data
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)

model = SVC()
model.fit(X_train_scaled, y_train)

X_test_scaled = scaler.transform(X_test)
y_pred = model.predict(X_test_scaled)

希望这有帮助。

另请参阅此处的帖子: https://towardsdatascience.com/everything-you-need-to-know-about-min-max-normalization-in-python-b79592732b79

关于python - 如何使用 MinMaxScaler sklearn 标准化训练和测试数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50565937/

25

4

0

文章推荐： Java AES 加密 - 在客户端和服务器之间发送初始化 vector

文章推荐： java - 使用自定义缓存管理器进行 Spring 缓存抽象

python - MinMaxScaler 无法正确缩放
我正在使用从 Lynda.com 获取的 sklearn MinMaxScaler 代码来缩放预测代码的数据集。特征范围应该是 (0,1)，但我注意到我的试验数据中有些列大于 1。我相信这导致我的预测
python - 保存行和列标题python的sklearn MinMaxScaler
我正在尝试规范化 df 并保存列和行索引/标题。 Sym1 Sym2 Sym3 Sym4 1 1 1 1 2 8 1 3 3 2 9
python - 如何在所有列上使用 MinMaxScaler？
现在，我的数据在一个 2 x 2 numpy 数组中。如果我要在数组上使用 MinMaxScaler fit_transform，它将逐列对其进行归一化，而我希望将整个 np 数组一起归一化。有办法吗
python - 如何在旧的 MinMaxScaler 上重新缩放新数据库？
现在我一直在解决扩展新数据的问题。在我的方案中，我已经训练并测试了模型，所有 x_train 和 x_test 都使用 sklearn.MinMaxScaler() 进行了缩放。然后，应用于实时过程，
python - 在 MinMaxScaler 中对多个特征使用相同的最小和最大数据
我有一个包含 5 个特征的数据集。其中两个特征非常相似，但不具有相同的最小值和最大值。 ... | feature 2 | feature 3 | ... ----------------------
python - 有人可以向我解释 MinMaxScaler() 是如何工作的吗？
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 去年关闭。 Improve this questio
pandas - SKLearn MinMaxScaler-仅缩放特定列
我想使用MinMaxScaler缩放Pandas dataFrame中的某些(但不是全部)列。我该怎么做？最佳答案由于sklearn> = 0.20，您可以使用Column Transformer
python - Spark MinMaxScaler 在数据帧上
假设我有以下数据框 +---+-----+-------+ |day| time| result| +---+-----+-------+ | 1| 6 | 0
python - 新版本的 MinMaxScaler 不再接受最大值和最小值的范围
在 sklearn 的 MinMaxScaler 的早期版本中，人们可以指定缩放器对数据进行标准化的最小值和最大值。换句话说，以下情况是可能的: from sklearn import preproc
numpy - 为什么 MinMaxScaler 会向图像添加线条？
我想将每个 channel (R、G、B)的图像像素值标准化到范围 [0, 1]。最小示例 #!/usr/bin/env python import numpy as np import scipy
python - 使用 MinMaxScaler 转换测试集时会发生什么
我目前正在预处理我的数据，我知道我必须使用与我的训练集和测试集相同的缩放参数。然而，当我应用 sklearn 库中的 transform 方法时，我注意到一些奇怪的事情。我首先在训练集上使用了 pr
python - 如何一致地缩放数据帧 MinMaxScaler() sklearn
我有三个数据框，每个数据框都使用 MinMaxScaler() 单独缩放。 def scale_dataframe(values_to_be_scaled) values = values_t
python - 如何将 sklearn MinMaxScaler() 的值转换回实际值？
我像这样使用 sklearn MinMaxScaler()。 from sklearn.preprocessing import MinMaxScaler sc = MinMaxScaler() tr
python - 在 PySpark 中的多个列上应用 MinMaxScaler
我想将 PySpark 的 MinMaxScalar 应用于 PySpark 数据框 df 的多列。到目前为止，我只知道如何将其应用于单个列，例如x。 from pyspark.ml.feature
machine-learning - 如何使用 MinMaxScaler 一次性标准化所有训练样本
我有 1320 个训练样本(海面温度)，每个样本都是一个二维数组(160,320)，因此最终数组的形状为(1320,160,320)。我想使用 MinMaxScaler() 将它们标准化为 0 到 1
python - 如何使用 MinMaxScaler sklearn 标准化训练和测试数据
所以，我有这个疑问，并一直在寻找答案。所以问题是当我使用时， from sklearn import preprocessing min_max_scaler = preprocessing.MinM
python - 如何在 MinMaxScaler 中对矩阵中的列使用 inverse_transform
我根据它的列缩放了一个矩阵，如下所示: scaler = MinMaxScaler(feature_range=(-1, 1)) data = np.array([[-1, 2], [-0.5, 6]
python - Sklearn MinMaxScaler y 的弃用错误
我正在尝试使用 sklearn.preprocessing.MinMaxScaler 来缩放使用 Keras 构建的 RNN 的 y 值 from sklearn.preprocessing impo
python - Sklearn 的 MinMaxScaler 只返回零
我正在尝试使用 sklearn 中的 preprocessing 将一些数字缩放到 0 - 1 的范围内。这就是我所做的: data = [44.645, 44.055, 44.54, 44.04,
pandas - MinMaxScaler 用于 pandas DataFrame 中的多个列
我想在多个 pandas DataFrame 上“一起”应用 MinmaxScaler。这意味着我希望缩放器对这些列中的所有数据执行，而不是对每一列单独执行。我的 DataFrame 有 20 列。

首页

博学

6Ren·AI

商城