tensorflow - 如何卡住/锁定一个 TensorFlow 变量的权重(例如，一层的一个 CNN 内核)-6ren

tensorflow - 如何卡住/锁定一个 TensorFlow 变量的权重(例如，一层的一个 CNN 内核)

转载作者：行者123 更新时间：2023-12-02 06:38:26

25

4

我有一个性能良好的 TensorFlow CNN 模型，我们希望在硬件中实现该模型；即 FPGA。这是一个相对较小的网络，但如果它更小一些那就更理想了。出于这个目标，我检查了内核，发现有些内核的权重非常强，而另一些则根本没有做太多事情(内核值都接近于零)。这特别发生在第 2 层，对应于名为“W_conv2”的 tf.Variable()。 W_conv2 的形状为 [3, 3, 32, 32]。我想卡住/锁定 W_conv2[:, :, 29, 13] 的值并将它们设置为零，以便可以训练网络的其余部分进行补偿。将此内核的值设置为零可以有效地从硬件实现中删除/修剪内核，从而实现上述目标。

我发现了类似的问题和建议，这些建议通常围绕两种方法之一；

建议#1:

    tf.Variable(some_initial_value, trainable = False)

实现此建议会卡住整个变量。我只想卡住一个切片，特别是 W_conv2[:, :, 29, 13]。

建议#2:

    Optimizer = tf.train.RMSPropOptimizer(0.001).minimize(loss, var_list)

同样，实现此建议不允许使用切片。例如，如果我尝试与我的既定目标相反的目标(仅优化单个变量的单个内核)，如下所示:

    Optimizer = tf.train.RMSPropOptimizer(0.001).minimize(loss, var_list = W_conv2[:,:,0,0]))

我收到以下错误:

    NotImplementedError: ('Trying to optimize unsupported type ', <tf.Tensor 'strided_slice_2228:0' shape=(3, 3) dtype=float32>)

按照我在这里尝试的方式切片 tf.Variables() 是不可能的。我尝试过的唯一接近做我想要的事情是使用 .assign() 但这非常低效、麻烦并且像穴居人一样，因为我按如下方式实现了它(在模型训练之后):

    for _ in range(10000):
        # get a new batch of data
        # reset the values of W_conv2[:,:,29,13]=0 each time through
        for m in range(3):
            for n in range(3):
                assign_op = W_conv2[m,n,29,13].assign(0)
                sess.run(assign_op)
        # re-train the rest of the network
        _, loss_val = sess.run([optimizer, loss], feed_dict = {
                                   dict_stuff_here
                               })
        print(loss_val)

该模型在 Keras 中启动，然后转移到 TensorFlow，因为 Keras 似乎没有实现预期结果的机制。我开始认为 TensorFlow 不允许修剪，但发现这很难相信；它只需要正确的实现。

最佳答案

一种可能的方法是用零初始化这些特定权重，并修改最小化过程，以便不对它们应用梯度。可以通过将 minimize() 的调用替换为以下内容来完成:

W_conv2_weights = np.ones((3, 3, 32, 32))
W_conv2_weights[:, :, 29, 13] = 0
W_conv2_weights_const = tf.constant(W_conv2_weights)

optimizer = tf.train.RMSPropOptimizer(0.001)

W_conv2_orig_grads = tf.gradients(loss, W_conv2)
W_conv2_grads = tf.multiply(W_conv2_weights_const, W_conv2_orig_grads)
W_conv2_train_op = optimizer.apply_gradients(zip(W_conv2_grads, W_conv2))

rest_grads = tf.gradients(loss, rest_of_vars)
rest_train_op = optimizer.apply_gradients(zip(rest_grads, rest_of_vars))

tf.group([rest_train_op, W_conv2_train_op])

即，

准备一个常量张量来取消适当的梯度
仅计算 W_conv2 的梯度，然后按元素与常量 W_conv2_weights 相乘，将适当的梯度归零，然后再应用梯度。
计算梯度并将其“正常”应用于其余变量。
将 2 个训练操作分组为一个训练操作。

关于tensorflow - 如何卡住/锁定一个 TensorFlow 变量的权重(例如，一层的一个 CNN 内核)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42517926/

25

4

0

文章推荐： java - 固定大小的 HashMap 的最佳容量和负载因子是多少？

文章推荐： Meteor 说 MAIL_URL 变量未设置，但它是

文章推荐： grails - grails 中的字符串 ID - 到底是如何做到的？

文章推荐： mongodb - For 循环在 Jinja/Flask 中不起作用

ios - 锁定/解锁 iPhone 时 AVCapture session 卡住/卡住
我正在我的 xamarin.forms 应用程序中实现扫描仪功能，为此我正在使用 iOS native AVCaptureSession。但我的问题是在扫描或捕获 session 处于事件状态并且设备
ios媒体选择器仅显示白屏/卡住
所以我目前正在为我的项目制作一个音乐应用程序，它允许用户创建自己的音乐播放列表。但是，当我单击显示媒体选择器按钮时，它只显示白屏，当包含媒体选择器的 View 是 Initial View Contr
Android 模拟器没有响应 - 卡住
当我尝试在模拟器中启动 AVD 时，会出现一个小窗口(见图片)，5 秒后它说没有响应并一直保持这种状态直到我关闭它。我在网上搜索并尝试了所有解决方案，但都没有成功在 BIOS 中启用了虚拟化已安
FFMPEG 帧提取 - 卡住
尝试使用以下命令从视频中提取特定帧(删除了文件的特定名称!: ffmpeg -i video.mp4 -vf "select-gte(n\,6956)"-vframes 10262 文件夹/帧%d.j
ubuntu - 卡住/工作终端？
我怎么知道终端正在继续工作而不中断它？我已经运行了以下 git 命令: clone git://ligo-vcs.phys.uwm.edu/lalsuite.gituote 一段时间后它似乎被卡住了
wpf - 滚动时Datagrid挂起/卡住
我对 WPF 中的数据网格有一个奇怪的问题。我正在为我的应用程序使用 MVVM 模式，并且我的 View 模型实现了 idataerrorinfo 接口(interface)。每当我在添加新行后在我的
输入数据时 Excel 卡住
我有这个 Excel 文件，当我输入数据时它卡住了。例如，我双击一个单元格，输入数据，然后按“输入”。它会卡住而不是进入下面的细胞。按几次“enter”不会解冻程序，唯一有效的是用鼠标选择另一个单元格
c# - 如何知道线程池中的线程挂起/卡住
我有线程池的任务队列，每个任务都有卡住锁定其正在使用的所有资源的倾向。并且除非重新启动服务，否则这些无法释放。 ThreadPool 中有没有办法知道它的线程已经被卡住？我有一个使用超时的想法(虽然我
prolog - 卡住/2个目标阻止已变得无法访问的变量
我制作了以下小程序来确定内存是否用于 freeze(X,Goal) 之类的目标回收时 X变得无法访问: %:- use_module(library(freeze)). % Ciao Prolog n
Java JFrame 卡住
我有一个使用 swing 的简单 java 应用程序。然而，当我执行程序时，框架将会出现，但我无法单击任何地方，并且按钮仅在几秒钟后出现。我对 javas Swing 库非常陌生，所以我可能会丢失一些
Java GUI 卡住
我正在尝试创建一个简单的 TCP 客户端服务器应用程序接口(interface)用户可以在按下相应按钮时启动或停止服务器我创建了一个 StartServer 按钮，当用户按下按钮时它应该连接到服务
Java FTPClient 卡住
我正在尝试从 ftp 服务器下载文件，但在检索文件时卡住了。我正在使用 commons-net-3.6.jar 我注意到的事情当我使用 ftpClient.enterRemotePassiveMod
c++ - SearchPathW 卡住
我正在尝试编写一个函数，该函数将能够找到位于我系统上的可执行文件搜索路径中的任意可执行文件。我遇到了一些输入会导致 SearchPathW 的问题无限期地卡住，我不确定到底发生了什么。 std::op
Nativescript RadSideDrawer 卡住
我的 Nativescript 应用程序的许多页面中都有 RadSideDrawer。主应用程序组件有一个 page-router-outlet并且所有其他页面都通过导航加载到此组件中。带抽屉的页面包
Java - 套接字 - 卡住
我有一个最小的服务器，它等待客户端连接，然后他启动一个线程，将回复发送回客户端，问题是回复。这是服务器的代码: int port = 1234; ServerSocket servSock =
c# - 操作繁忙时表单不执行任何操作(卡住)
我有一个使用 C# 的 WinForms 应用程序。我尝试从文件中读取一些数据并将其插入到数据表中。虽然此操作很忙，但我的表单卡住并且我无法移动它。有谁知道我该如何解决这个问题？最佳答案这可能是因
Javafx GUI 卡住
在我们学校最新的项目中，我遇到了一些问题。我想观察新条目的路径，该路径是由文件导向器按钮选择的，但如果我选择任何文件，整个窗口都会卡住...我猜它被卡住，因为调用了“observePath”方法，但我
输入一百万时 Java 卡住
当我输入一百万作为输入数字时，我的程序卡住了。我该如何解决这个问题？我尝试将第二个 for 循环分离为第二个函数，但没有成功。 import java.io.*; public class Arra
java - transformClassesWithDexBuilderForDebug 卡住
早上好编译我的应用程序时，我在 Android Studio 上遇到问题。我在构建时没有收到关于 app:transformClassesWithDexBuilderForDebug 的任何输出错误，
应用触发器时 PHPMYAdmin 卡住
我正在使用以下触发器 DELIMITER ; CREATE TRIGGER updateCount AFTER INSERT ON user_info FOR EACH ROW BEGIN UPDA

首页

博学

6Ren·AI

商城

tensorflow - 如何卡住/锁定一个 TensorFlow 变量的权重(例如，一层的一个 CNN 内核)