gpt4 book ai didi

machine-learning - 机器学习 - 标准化没有理论最大值的特征

转载 作者:行者123 更新时间:2023-11-30 08:31:03 26 4
gpt4 key购买 nike

什么方法是标准化/标准化没有理论最大值的特征的最佳方法?

例如,像股票值(value)这样一直在 0-1000 美元之间的趋势并不意味着它不能进一步上涨,那么正确的方法是什么?

我考虑过在更高的最大值(例如 2000 )上训练模型,但感觉不对,因为没有可用的 1000-2000 范围内的数据,而且我认为这会引入偏差

最佳答案

TL;DR:使用 z 分数,也许采用对数,也许采用逆 logit,也许根本不标准化。

如果您希望安全地标准化,请使用单调映射,例如:

要将(0, inf)映射到(-inf, inf),您可以使用y = log(x)

要将 (-inf, inf) 映射到 (0, 1),您可以使用 y = 1/(1 + exp(-x) )(逆逻辑)

要将 (0, inf) 映射到 (0, 1),您可以使用 y = x/(1 + x) (对数后的逆对数)

如果您不关心边界,请使用线性映射:y=(x - m)/s,其中m是特征的平均值, s 是其标准差。这称为标准缩放,有时也称为 z 评分。

您应该问自己的问题:为什么要标准化?。您打算如何处理您的数据?使用它作为输入功能?或者用它作为目标来预测?

对于输入特征,不进行归一化是可以的,除非您对模型系数(如 Ridge 或 Lasso)进行正则化,如果所有系数都处于相同的尺度(即标准缩放后)。

对于目标特征,将其保留为非标准化有时也可以。

加法模型(如线性回归或梯度增强)有时在对称分布下效果更好。股票值(value)(以及一般的货币值(value))的分布通常向右倾斜,因此记录日志使它们更方便。

最后,如果您使用具有 sigmoid 激活函数的神经网络来预测您的特征,那么它是固有有界的。在这种情况下,您可能希望目标也受到限制。为此,您可以使用 x/(1 + x) 作为目标:如果 x 始终为正,则该值将始终在 0 和 1 之间,就像神经网络的输出。

关于machine-learning - 机器学习 - 标准化没有理论最大值的特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46744076/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com