gpt4 book ai didi

machine-learning - 数据科学缩放/标准化真实案例

转载 作者:行者123 更新时间:2023-11-30 09:27:08 25 4
gpt4 key购买 nike

在进行数据预处理时,建议进行缩放或归一化。当你手上有数据时,这很容易做到。您拥有所有数据并且可以立即执行。但是在模型构建并运行之后,输入的第一批数据是否需要进行缩放或标准化?如果需要,它只有一行,如何缩放或标准化它?我们如何知道每个特征的最小值/最大值/平均值/标准差是多少?传入的数据如何是每个特征的最小/最大/平均值?

请指教

最佳答案

首先,您应该知道何时使用缩放和标准化。

  1. 缩放 - 缩放只不过是将您的特征转换为可比较的量级。假设您有像人的收入这样的特征,并且您注意到有些特征的值为 10^3 量级,有些特征的值为 10^3 量级有 10^6。现在,如果您使用此特征对问题进行建模,那么像 KNN、岭回归这样的算法将为此类属性的较高量级赋予更高的权重。为了防止这种情况,您需要首先缩放您的特征。最小-最大缩放器是其中之一最常用的缩放。

  2. 均值归一化 -如果在检查特征的分布后,你发现特征不是以零为中心,那么对于像 svm 这样的算法,目标函数已经假设零均值和同阶方差,我们在建模时可能会遇到问题。所以在这里你应该进行均值归一化.

  3. 标准化 - 对于像 svm、神经网络、逻辑回归这样的算法,必须有相同顺序的特征方差。所以我们为什么不这样做一。所以在标准化中,我们使特征的分布为零均值和单位方差。

现在让我们尝试在训练和测试集方面回答您的问题。假设您正在 50k 数据集上训练模型并在 10k 数据集上进行测试。对于上述三种转换,标准方法表明您应该将任何标准化器或缩放器仅适合训练数据集,并仅对测试数据集使用转换。在我们的例子中,如果我们想使用标准化,那么我们将首先在 50k 训练数据集上拟合标准化器,然后用于转换 50k 训练数据集和测试数据集。

注意 - 我们不应该将标准化器拟合到测试数据集,而是使用已经拟合的标准化器来转换测试数据集。

关于machine-learning - 数据科学缩放/标准化真实案例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46032217/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com