- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
最终编辑:清理问题并接受 runDOSrun 的答案。 IVlad 的同样好,user3760780 的也非常有帮助。我建议阅读所有这三篇文章以及评论。 TLDR 的答案是,可能性#1 或多或少是正确的,但我的措辞非常糟糕。
神经网络中的输入层由什么组成?该层有什么作用?
类似的问题在这里Neural Networks: Does the input layer consist of neurons?但那里的答案并没有消除我的困惑。
就像上面问题中的发帖者一样,我对互联网上关于基本前馈网络的输入层的许多相互矛盾的说法感到困惑。
我将跳过相互矛盾的教程和文章的链接,并列出我可以看到的三种可能性。哪一项(如果有)是正确的?
谢谢!
编辑 1:为了进一步清晰起见,这是一张图像和一个示例。
最佳答案
在您的 3 个描述中,第一个最适合:
- The input layer passes the data directly to the first hidden layer where the data is multiplied by the first hidden layer's weights.
标准多层感知器的输入层由单元组成(您可以将它们称为输入神经元,但我更喜欢使用术语单元,因为您期望神经元执行一些计算,但输入层的情况并非如此)您分配一个值(输入数据实例的一部分,或者机器学习术语中单个实例的特征值),它们只是将该值提供给第一个隐藏层中的每个神经元,从而准确地产生您在图像中描绘的第一个案例。
为了更准确,我会将其改写为:
x1, x2, ..., xm
) 与其权重向量 (w1, w2, ..., wm
) 相乘),对相乘的值 (x1*w1 + x2*w2 + ... + xm*wm
) 求和,将其激活函数应用于此总和(logistic、tanh、恒等函数)并返回值由激活函数计算到下一层。因此,对于您的示例,隐藏层中最顶层的神经元将接收输入:
.5, .6
从输入层,它将计算并返回:
g(.4 * .5 + .3 * .6)
其中g
是它的激活函数,可以是任何东西:
g(x) = x # identity function, like in your picture
g(x) = 1 / (1 + exp(-x)) # logistic sigmoid
在我看来,说权重也进入其中并不完全正确,因为它的权重是它自己的,但我想这种区别不是很重要;这当然不会影响结果。
你必须记住,这都是概念性的。在正确的实现中,您根本不会有任何实际的层,只有一些矩阵乘法。但他们将实现相同的概念。当试图理解某些东西时,您应该从引用基本概念开始。
- The input layer passes the data through the activation function before passing it on. The data is then multiplied by the first hidden layer's weights.
这是不正确的,输入层仅返回分配给下一层中每个神经元的一些值。
您在哪里找到了一些引用资料?我很确定这样做不是标准做法。
- The input layer has its own weights that multiply the incoming data. The input layer then passes the data through the activation function before passing it on. The data is then multiplied by the first hidden layer's weights.
再说一次,情况并非如此。它没有权重,也没有激活函数。
关于machine-learning - 神经网络 : What does the input layer consist of?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32514502/
基本上,我的问题是,由于无监督学习是机器学习的一种,是否需要机器“学习”的某些方面并根据其发现进行改进?例如,如果开发了一种算法来获取未标记的图像并找到它们之间的关联,那么它是否需要根据这些关联来改进
生成模型和判别模型似乎可以学习条件 P(x|y) 和联合 P(x,y) 概率分布。但从根本上讲,我无法说服自己“学习概率分布”意味着什么。 最佳答案 这意味着您的模型要么充当训练样本的分布估计器,要么
是否有类似于 的 scikit-learn 方法/类元成本 在 Weka 或其他实用程序中实现的算法以执行常量敏感分析? 最佳答案 不,没有。部分分类器提供 class_weight和 sample_
是否Scikit-learn支持迁移学习?请检查以下代码。 型号 clf由 fit(X,y) 获取 jar 头型号clf2在clf的基础上学习和转移学习 fit(X2,y2) ? >>> from s
我发现使用相同数据的两种交叉验证技术之间的分类性能存在差异。我想知道是否有人可以阐明这一点。 方法一:cross_validation.train_test_split 方法 2:分层折叠。 具有相同
我正在查看 scikit-learn 文档中的这个示例:http://scikit-learn.org/0.18/auto_examples/model_selection/plot_nested_c
我想训练一个具有很多标称属性的数据集。我从一些帖子中注意到,要转换标称属性必须将它们转换为重复的二进制特征。另外据我所知,这样做在概念上会使数据集稀疏。我也知道 scikit-learn 使用稀疏矩阵
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时,我收到此警告: 用户
有几种算法可以构建决策树,例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法? 当我查看一些决策树 python 脚本时,它神奇地生成了带有
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时,我收到此警告: 用户
有几种算法可以构建决策树,例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法? 当我查看一些决策树 python 脚本时,它神奇地生成了带有
有没有办法让 scikit-learn 中的 fit 方法有一个进度条? 是否可以包含自定义的类似 Pyprind 的内容? ? 最佳答案 如果您使用 verbose=1 初始化模型调用前 fit你应
我正在使用基于 rlglue 的 python-rl q 学习框架。 我的理解是,随着情节的发展,算法会收敛到一个最优策略(这是一个映射,说明在什么状态下采取什么行动)。 问题 1:这是否意味着经过若
我正在尝试使用 grisSearchCV 在 scikit-learn 中拟合一些模型,并且我想使用“一个标准错误”规则来选择最佳模型,即从分数在 1 以内的模型子集中选择最简约的模型最好成绩的标准误
我正在尝试离散数据以进行分类。它们的值是字符串,我将它们转换为数字 0,1,2,3。 这就是数据的样子(pandas 数据框)。我已将数据帧拆分为 dataLabel 和 dataFeatures L
每当我开始拥有更多的类(1000 或更多)时,MultinominalNB 就会变得非常慢并且需要 GB 的 RAM。对于所有支持 .partial_fit()(SGDClassifier、Perce
我需要使用感知器算法来研究一些非线性可分数据集的学习率和渐近误差。 为了做到这一点,我需要了解构造函数的一些参数。我花了很多时间在谷歌上搜索它们,但我仍然不太明白它们的作用或如何使用它们。 给我带来更
我知道作为功能 ordinal data could be assigned arbitrary numbers and OneHotEncoding could be done for catego
这是一个示例,其中有逐步的过程使系统学习并对输入数据进行分类。 它对给定的 5 个数据集域进行了正确分类。此外,它还对停用词进行分类。 例如 输入:docs_new = ['上帝就是爱', '什么在哪
我有一个 scikit-learn 模型,它简化了一点,如下所示: clf1 = RandomForestClassifier() clf1.fit(data_training, non_binary
我是一名优秀的程序员,十分优秀!