gpt4 book ai didi

r - R 中的 H2O - 自动数据处理

转载 作者:行者123 更新时间:2023-11-30 09:37:19 24 4
gpt4 key购买 nike

我注意到 H2O packages mentions that it :

preprocesses the data to be standardized for compatibility with the activation functions (recall Table 1’s summary of each activation function’s target space). Since the activation function does not generally map into the full spectrum of real numbers, R, we first standardize our data to be drawn from N (0, 1). Standardizing again after network propagation allows us to compute more precise errors in this standardized space, rather than in the raw feature space. For autoencoding, the data is normalized (instead of standardized) to the compact interval of mathcalU(−0.5, 0.5), to allow bounded activation functions like Tanh to better reconstruct the data.

但是,我并不完全理解。我的印象是( herehere ),分类变量应分解为 1-of-C 虚拟变量,并对连续数据进行标准化然后,一切都应该标准化为 [-1,1]

我也没有看到为读出层指定神经元的方法。我认为如果我们有一个分类输出变量,那么我们想要使用softmax激活函数(并编码为1-of-C)/如果我们有一个连续输出(例如价格),然后我们将其缩放到 [-1,1] 并使用“tanh”/如果我们有单个二进制输出,那么我们可以使用逻辑并将其编码为 [0,1]

最佳答案

对于分类和回归(即监督模式),H2O 深度学习执行以下操作:

第一个神经网络层的输入确实是分类特征的 1-of-C 虚拟变量(0 或 1)。连续特征被标准化(未标准化):去意义并按 1/方差缩放。

对于回归,响应变量也在内部标准化,以允许(单个)输出神经元的激活值与其进行比较。但是,为了在评分期间呈现给用户,预测将被去标准化到原始空间。

对于分类,我们使用 Softmax 来获取 C 类的概率,甚至对于二元分类也是如此。

您引用的文档还涉及无监督自动编码(通过启用自动编码器标志)。在这种情况下,输入会被标准化(即按 1/(max-min) 缩放),而不是被标准化。这是允许自动编码器具有完全重叠的输入和输出空间所必需的。

关于r - R 中的 H2O - 自动数据处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34875137/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com