python - 反向传播算法陷入训练 AND 函数的困境-6ren

python - 反向传播算法陷入训练 AND 函数的困境

转载作者：行者123 更新时间：2023-11-30 09:36:00

25

4

这是使用 tensorflow 的单个神经元的 AND 函数的实现:

def tf_sigmoid(x):
    return 1 / (1 + tf.exp(-x))

data = [
    (0, 0),
    (0, 1),
    (1, 0),
    (1, 1),
]

labels = [
    0,
    0,
    0,
    1,
]

n_steps = 1000
learning_rate = .1

x = tf.placeholder(dtype=tf.float32, shape=[2])
y = tf.placeholder(dtype=tf.float32, shape=None)

w = tf.get_variable('W', shape=[2], initializer=tf.random_normal_initializer(), dtype=tf.float32)
b = tf.get_variable('b', shape=[], initializer=tf.random_normal_initializer(), dtype=tf.float32)

h = tf.reduce_sum(x * w) + b
output = tf_sigmoid(h)

error = tf.abs(output - y)
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(error)
sess.run(tf.initialize_all_variables())


for step in range(n_steps):
    for i in np.random.permutation(range(len(data))):
        sess.run(optimizer, feed_dict={x: data[i], y: labels[i]})

有时它工作得很好，但在某些参数上它会卡住并且不想学习。例如，使用这些初始参数:

w = tf.Variable(initial_value=[-0.31199348, -0.46391705], dtype=tf.float32)
b = tf.Variable(initial_value=-1.94877, dtype=tf.float32)

它几乎不会对成本函数做出任何改进。我做错了什么，也许我应该以某种方式调整参数的初始化？

最佳答案

您是否缺少一个平均值(错误)？

您的问题是 sigmoid、成本函数和优化器的特定组合。

别难过，据我所知，这个问题让整个领域停滞了几年。

当您远离中间时，Sigmoid 是平坦的，并且您使用相对较大的数字来初始化它，请尝试/1000。

因此，您的绝对误差(或平方误差)也是平坦的，并且 GradientDescent 优化器采取与斜率成比例的步骤。

其中任何一个都可以修复它:

使用cross-entropy对于错误 - 它是凸的。

使用更好的优化器，例如 Adam，步长对坡度的依赖要小得多。更多关于坡度一致性的信息。

奖励:不要使用自己的 sigmoid，使用 tf.nn.sigmoid ，这样你会得到更少的 NaN。

玩得开心!

关于python - 反向传播算法陷入训练 AND 函数的困境，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42614993/

25

4

0

文章推荐： javascript - React Router Redux 从 v3 升级到 v4

文章推荐： java - 提高核心 Java 生产力的前 3 个库是什么？

文章推荐： java - apache james 邮件服务器发送电子邮件

文章推荐： r - 在 R 中为 svm 编写自定义内核

wpf - OneWayToSource 困境
我正在使用 OneWayToSource绑定(bind)，它似乎总是将我的源属性设置为空。为什么呢？这给我带来了麻烦，因为我需要源属性中目标属性的值而不是空值。这是我的代码: MyViewModel
Perl 困境 - 分配和返回哈希
我有一个实例变量属性，它被声明和实例化，如下所示: $self->{properties}{$key1} = $value; 我的理解是这将声明属性字段，并将其设置为包含一个键值对的哈希原语。我正
java - 素数 - 困境
我正在尝试检查给定的数字是否是质数。首先采用试分割法。但该程序的行为很奇怪。这是我使用的。 int no; no = Integer.parseInt(jTextField1.getText());
iphone - viewWillAppear 困境
我正在使用 NSUserDefaults使一个对象在多个 UIViewController 之间保持同步UITabbarController 中使用的 s .为此，我正在实现以下 - (void)vi
java - boolean 困境
考虑以下 Java 方法: public Boolean compare(String val1, String val2) { return val1.length() > 0 && val
mysql - "select"困境
我有一个问题...假设我有一个包含城市名称的表。像这样: id name 1 Los Angeles 2 Madrid 我有一张用户表: uid username locationid
c++ - 嵌套 If 困境
我无法理解这个问题。该代码非常基本，但它的行为却出乎意料。该代码是例程的简化版本，用于从每日数据库中提取每月第 15 天的数据并将其保存到单独的文件中。哪里有问题？第一个 cout 打印输入外部 i
css 困境(大背景)
我在中使用大背景标签，我想制作一个宽度为 960px 的容器 div。我希望容器 div 位于从顶部向下 15px 的位置，我想我必须使用 position:absolute。我的困境是；容器内的
php - 困境，在没有其他信息已知的情况下搜索散列字段
我遇到了一个难题。我有一个 hashedX 字段，它是一个散列值/加盐值，按照惯例，加盐值保存在 mysql 数据库的同一行中。 hashedX saltX ------ ---
java.io 困境
类 java.io.Reader 和 java.io.InputStreamReader 都有具有完全相同签名的读取方法 public int read(char[] charbuf, int off
c# - log4Net 困境
我有一个包含多个 C# 项目的 C# 解决方案。我打算在其中添加日志记录。此日志记录应该在所有项目中可用，并且最好使用带有滚动文件日志的 log4Net。在上述前提下，我可以想到两种方法。在解决方
Python - IronPython 困境
我开始学习Python，目前我非常喜欢它。但是，如果你能帮我回答几个问题，这些问题一直困扰着我，我找不到任何明确的答案: 就语言兼容性而言，Python 的 C 实现(来自 python.org 的主
iphone - AVAssetWriter 困境
我正在尝试使用 AVAssetWriter 将 CGImages 写入文件以从图像创建视频。我已经让它在模拟器上以三种不同的方式成功运行，但在运行 iOS 4.3 的 iPhone 4 上，每种方法
sql - 存储一对多关系的最佳方法-实例/困境
我需要对一个想法进行建模，可以将其分解并考虑如下: 图书详细信息图书价格这里的问题是您可以为书籍设置许多价格，并且这些价格可能会发生变化。这是一个例子图书详细信息: --------------
SQL Server GROUP BY 困境
我有一个表，其中的行包含名为 MySubId 的列。此列中的值可以重复。我想找到 MySubId 值和出现次数最多的 MySubId 值的行数。我有以下查询: SELECT MySubId, COU
java - hibernate 困境，多对多还是一对多然后多对一？
我有两个具有多对多关系的类，因此我在它们之间创建了一个联接表(一个非常经典的示例!) 在java+hibernate中我想知道哪种方式更好？使用hibernate多对多注释在这两个类之间有多对多关系吗
java - 无法进行静态引用/无法在静态上下文中使用 "this"困境
我正在尝试创建一个 Android 应用程序来完成以下任务:它通过短信向一组收件人(存储在数组中的数字)发送初始调查问题。然后，对于收到的每个响应，它都会向该参与者发送该系列中的下一个问题。这是我做过
spring - Velocity IncludeEventHandler 困境
这里有一个关于 IncludeEventHandler 的有趣问题。我正在开发一个基于 Spring 的应用程序，该应用程序使用具有单独投资组合站点的不同供应商的速度。我让供应商通过向他们提供存储在
c# - 事件和委托(delegate)困境
我真的无法理解事件和委托(delegate)的概念。我知道委托(delegate)是持有方法引用的对象，可以调用具有相同返回类型和参数的方法，但事件到底是什么？如果我需要使用事件来制作一个简单的计算
Java 线程和 JTabbedPane 困境
在我正在处理的一个项目中，我有一个扩展 JFrame 的主类(名为 TrackWin)。在此框架中，我使用 JTabbedPane。用户可以从菜单栏在 Pane 中创建新选项卡。每当发生这种情况时，

首页

博学

6Ren·AI

商城

python - 反向传播算法陷入训练 AND 函数的困境