gpt4 book ai didi

python - StandardScaler 如何不破坏数据完整性?

转载 作者:行者123 更新时间:2023-11-30 09:14:57 27 4
gpt4 key购买 nike

既然使用sklearns的StandardScaler对初始数据进行了归一化,那么初始数据不再相同,这不是有问题吗?

示例:

from sklearn.preprocessing import StandardScaler
import numpy as np


data = np.array([[1,1],[2,0]])
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

print(data)
[[1 1]
[2 0]]

print(scaled_data)
[[-1. 1.]
[ 1. -1.]]

正如您所看到的,由于标准化,数据并不相同。由于数据不同,这种变化如何不影响 future 处理的结果以及在什么情况下适合执行标准化(基本上我们对具有负值的数据进行标准化,但我的意思是在什么过程中合适)?

最佳答案

让我们去官方文档了解该函数: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

由此,我们可以看到这个公式:样本x的标准分计算公式为:

z = (x - u)/s这里 u - 均值 & s - 标准差

enter image description here

根据正态分布定理,我们可以使用上述公式和分布来表示任何数据。

从几何角度来说,我们减去具有相同值的字段/列的所有值并除以另一个相同值。

我们只是重新缩放数据。因此,数据完整性不会丢失

关于python - StandardScaler 如何不破坏数据完整性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58481729/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com