python - LBFGS 在 pytorch 中永远不会在大维度上收敛-6ren

python - LBFGS 在 pytorch 中永远不会在大维度上收敛

转载作者：行者123 更新时间：2023-12-01 09:23:39

27

4

我正在研究 Wolfram 元胞自动机的规则 110。给定一行零和一，您可以使用以下规则计算下一行:

从 00000000....1 开始，最后你得到这个序列:

出于好奇，我决定用多项式来近似这些规则，这样单元格不仅可以是 0 和 1，还可以是介于两者之间的灰色:

def triangle(x,y,z,v0):
    v=(y + y * y + y * y * y - 3. * (1. + x) * y * z + z * (1. + z + z * z)) / 3.
    return (v-v0)*(v-v0)

因此，如果 x、y、z 和 v0 与表中的任何规则匹配，它将返回 0，否则返回正非零值。

接下来，我将所有可能的 4 个邻居组添加到单个总和中，对于整数解，该总和为零:

def eval():
    s = 0.
    for i in range(W - 1):
        for j in range(1, W + 1):
            xx = x[i, (j - 1) % W]
            yy = x[i, j % W]
            zz = x[i, (j + 1) % W]
            r = x[i + 1, j % W]
            s += triangle(xx, yy, zz, r)
    for j in range(W - 1): s += x[0, j] * x[0, j]
    s += (1 - x[0, W - 1]) * (1 - x[0, W - 1])
    return torch.sqrt(s)

还在这个函数的底部，我为第一行添加了普通条件，这样除了最后一个元素(即 1)之外，所有元素均为 0。最后，我决定使用 pytorch 最小化 W*W 矩阵上的平方和:

x = Variable(torch.DoubleTensor(W,W).zero_(), requires_grad=True)
opt = torch.optim.LBFGS([x],lr=.1)
for i in range(15500):
    def closure():
        opt.zero_grad()
        s=eval()
        s.backward()
        return s
    opt.step(closure)

这里是full code ，你可以自己尝试一下。问题是，对于 10*10，它会在大约 20 步内收敛到正确的解决方案:

但是如果我采用 15*15 板，它永远不会完成收敛:

右图显示了平方和如何随着下一次迭代而变化，您可以看到它永远不会达到零。我的问题是为什么会发生这种情况以及如何解决这个问题。尝试了不同的 pytorch 优化器，但它们的性能都比 LBFGS 差。尝试了不同的学习率。有什么想法为什么会发生这种情况以及我如何在优化过程中达到最终点吗？

UPD:改进的收敛图，SOS 日志:

UPD2:我也尝试使用 dlib 在 C++ 中做同样的事情，而且我没有任何收敛问题，它在更短的时间内进行得更深入:

我使用此代码在 C++ 中进行优化:

find_min_using_approximate_derivatives(bfgs_search_strategy(),
        objective_delta_stop_strategy(1e-87),
        s, x, -1)

最佳答案

您在这里尝试做的是非凸优化，这是一个众所周知的难题。一旦您思考一下，就会发现这是有道理的，因为几乎任何实际的数学问题都可以表述为优化问题。

<强>1。前奏
因此，在提示您在哪里找到特定问题的解决方案之前，我想说明一下为什么某些优化问题很容易解决。

我将从讨论凸问题开始。即使在受约束的情况下，这些问题也很容易解决，其原因是，当您计算梯度时，您实际上会获得大量关于最小值不可能在哪里的信息(凸函数 f 的泰勒展开始终是一个低估 f)，此外只有一个最小值并且没有鞍点。如果您有兴趣了解有关凸优化的更多信息，我建议您在 YouTube 上查看 Stephen Boyd 的凸优化类(class)。

既然非凸优化如此困难，我们为何能够在深度学习中解决它呢？答案很简单，我们在深度学习中最小化的非凸函数非常好，如Henaff et al所示。 .

因此，机器学习从业者必须认识到，深度学习中使用的运算程序在处理其他非凸问题时，如果一开始就收敛到最小值，很可能不会产生良好的最小值。

<强>2。回答你的问题
现在来回答你的问题，你可能不会找到快速的解决方案，因为非凸优化是 NP 完成的。但不用担心，SciPy 有一些全局优化算法可供选择。 Here是另一个堆栈溢出线程的链接，它很好地回答了您的问题。

<强>3。这个故事的寓意
最后，我想提醒您，收敛保证很重要，忘记它会导致 oil rig collapsing .

PS。请原谅拼写错误，我正在使用手机

更新: 至于为什么 BFGS 与 dlib 配合使用，可能有两个原因，首先，BFGS 比 L-BFGS 更擅长使用曲率信息，其次，它使用线搜索来查找曲率信息。最佳步长。我建议检查 PyTorch 是否允许行搜索，如果不允许，则设置递减的步长(或者只是非常低的步长)。

关于python - LBFGS 在 pytorch 中永远不会在大维度上收敛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50621786/

27

4

0

文章推荐： neo4j - Cypher zipper 系列

文章推荐： php - 获取 Woocommerce 3 中的订单总运费

文章推荐： objective-c - 指针在 Objective-C 中是如何工作的

文章推荐： sql - 向 Oracle 数据库中插入数据

python - Tensorflow ValueError : All shapes must be fully defined: [TensorShape([Dimension(None), 维度(无)，维度(3)])，TensorShape([])
我想使用批处理从文件夹中读取图像。但是解码后，当我使用tf.train.batch时可能会出现一些问题。这是代码。 def get_batch(image, label, batch_size, ca
Tensorflow unsorted_segment_sum 维度
我正在使用 tf.unsorted_segment_sum TensorFlow 的方法，当我作为数据给出的张量只有一行时，它工作正常。例如: tf.unsorted_segment_sum(tf.c
javascript 正则表达式维度
我想创建一个正则表达式来检查有效维度JavaScript 中的长度 x 宽度 x 高度。例如90.49 x 34.93 x 40.64 我打算使用的示例代码: var dimensionRegex
Android ViewPager 维度
ViewPager 是否必须是 Activity 布局中唯一存在的对象？我正在尝试实现这样的东西: 我应该在什么地方有一个大的寻呼机在顶部滚动(我有)和一个较小的画廊在它下面滚动。这只向我显示寻
database - 维度、维度属性和事实之间的区别
据我所知，(维度、维度属性和事实)差异的最佳示例如下所示: 维度 - 产品、帐户、客户维度属性 - ProductName、ProductNumber、CustomerName、CustomerNu
python - numpy 维度
我是 Numpy 的新手，正在尝试理解什么是维度的基本问题，我尝试了以下命令并试图理解为什么最后两个数组的 ndim 相同？ >>> a= array([1,2,3]) >>> a.ndim 1 >
version-control - 计算的度量/维度
我对 MDX 比较陌生，正在尝试完成我认为应该很容易的事情，但我还没有找到任何解决方案。我有一个销售立方体，其中一个衡量标准是利润，它可以是负数也可以是正数。我想得到一个有效的正利润总和的度量，即只
olap - 您将如何处理具有可变深度层次结构的 OLAP 维度？
在大多数情况下，维度内层次结构的每个级别代表不同的概念(即国家->地区->城市、年->月->日)，这很简单，可以在多维数据集中使用。我感兴趣的是可变深度层次结构，它往往由相同概念的实例组成，即计算机
java - 如何循环获取数组的 'n' 维度？
我正在尝试创建一个方法来总结潜在的项目并从数组返回该总和。以下是一些预期的示例输入: arraySum(new int[10]); // 10 arraySum(new int[2][5]); //
java - 维度 2 的自定义对象数组的初始化
我正在尝试初始化一个二维数组(我创建的类对象)，但我仍然遇到相同的运行时错误: Exception in thread "main" java.lang.NullPoointerException
c++ - 我怎样才能拥有一个以二维数组作为参数的函数，而该数组有一个我想更改的参数/维度？
(我是一名学生，这是我第一次发帖，所以请放轻松。)我想创建一个将二维数组作为参数的函数，并且在该数组中，我想要一个变量，稍后我想在代码中对其进行修改。这是最接近我想要的例子的东西: int size;
android - 获取 SurfaceView 维度
我想我可能会问一个虚拟问题，但我对 Android 编程还是个新手，而且我无法(尽管我付出了所有努力)在 Google 上找到我的答案。问题是，我正在尝试使用 2D 图形开发一个小游戏。我希望我的“
javascript - 按日期过滤 Crossfilter 维度
如何使用 Crossfilter 过滤一系列日期？当我知道该时间段之间存在事实记录时，以下内容不起作用。 Var myDimension = CrossFilterObj.dimension(func
c - 启动流程并始终设置流程 HWND 维度
我正在启动另一个应用程序并设置其主要 HWND 位置和大小。我正在使用 STARTUPINFO指定窗口尺寸的标志，但看起来只有在新进程使用 CW_USEDEFAULT 时才会遵循这些尺寸在其 Crea
python - 卷积层不匹配中的 Keras 维度
我正在尝试使用 Keras 构建我的第一个神经网络。我的经验为零，我似乎无法弄清楚为什么我的维度不对。我无法从他们的文档中弄清楚这个错误在提示什么，甚至是什么层导致了它。我的模型接受一个 32 字节
HTML a 元素不会扩展到父 li 维度
我有一个水平导航栏，我的 a 元素没有扩展到父 li 元素的宽度和高度。如何修改我的 CSS，使 a 元素与外部/父级 li 元素一样宽和高？
java - 维度，只改变宽度/高度
如何只更改需要 Dimension 对象的组件的宽度或高度？目前我是这样做的: jbutton.setPreferredSize(new Dimension(button.getPreferredSi
mdx - 动态、动态、OLAP 维度
哪些 OLAP 工具支持动态、动态地创建维度或层次结构？例如，层次结构将成员定义为:“前 5 名”、“前 6-10 名”、“其他”... 计算成员是通常的答案，我正在寻找不同的东西。计算器的问题。成
javascript - jQuery:动态 HTML 维度
我使用 1 个 div 元素为我的网站制作 .background 。它的高度将是 100%。为了实现这一点，我使用 jQuery 尺寸实用程序。用这个脚本来获取高度 $('.background
c++ - 有没有简单的方法来动态增加 boost::multi_array 维度？
MultiArray与使用 std::vector 创建多数组相比，在 boost 中有很多优势。但是，我对 BOOST 中的 MultiArray 感到不舒服的一件事是创建一个可以轻松更改其大小的多

首页

博学

6Ren·AI

商城

python - LBFGS 在 pytorch 中永远不会在大维度上收敛