卡住图后的 Tensorflow OOM-6ren

卡住图后的 Tensorflow OOM

转载作者：行者123 更新时间：2023-12-03 17:58:20

26

4

我正在使用 tf 运行 seq2seq 模型，当使用 tf.train.Saver 从检查点文件加载参数时，推理程序运行良好。但是在使用 freeze_graph.py(使用 tf.framework.graph_util.convert_variables_to_constants())导出图形后，使用 tf.import_graph_def 导入推理程序，出现OOM问题。

这是错误日志的一部分:

W tensorflow/core/common_runtime/bfc_allocator.cc:274] ****************************************************************************************************
W tensorflow/core/common_runtime/bfc_allocator.cc:275] Ran out of memory trying to allocate 4.0KiB.  See logs for memory state.
W tensorflow/core/framework/op_kernel.cc:983] Internal: Dst tensor is not initialized.
E tensorflow/core/common_runtime/executor.cc:594] Executor failed to create kernel. Internal: Dst tensor is not initialized.
     [[Node: embedding_attention_seq2seq/embedding_attention_decoder/attention_decoder/AttnV_0 = Const[dtype=DT_FLOAT, value=Tensor<type: float shape: [1024] values: -0.016628871 -0.2054652 -0.045054652...>, _device="/job:localhost/replica:0/task:0/gpu:0"]()]]
Traceback (most recent call last):
  File "inference.py", line 88, in console_main
    result = list(inference(source_sentence))
  File "inference.py", line 54, in inference
    for sequence in result:
  File "/data/experiment/decoder.py", line 115, in search_best_sequence
    State.batch_predict(self.session, self.model, self.context, beam)
  File "/data/experiment/decoder.py", line 82, in batch_predict
    state_list[0].depth)
  File "/data/experiment/seq2seq_model.py", line 452, in batch_feed_decoder
    log_softmax, attns, state = session.run(output_fetch, input_feed)
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 767, in run
    run_metadata_ptr)
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 966, in _run
    feed_dict_string, options, run_metadata)
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 1016, in _do_run
    target_list, options, run_metadata)
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 1036, in _do_call
    raise type(e)(node_def, op, message)
InternalError: Dst tensor is not initialized.
     [[Node: embedding_attention_seq2seq/embedding_attention_decoder/attention_decoder/AttnV_0 = Const[dtype=DT_FLOAT, value=Tensor<type: float shape: [1024] values: -0.016628871 -0.2054652 -0.045054652...>, _device="/job:localhost/replica:0/task:0/gpu:0"]()]]

Caused by op u'embedding_attention_seq2seq/embedding_attention_decoder/attention_decoder/AttnV_0', defined at:
  File "inference.py", line 169, in <module>
    tf.app.run()
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/platform/app.py", line 44, in run
    _sys.exit(main(_sys.argv[:1] + flags_passthrough))
  File "inference.py", line 165, in main
    console_main(session)
  File "inference.py", line 66, in console_main
    model = create_model(session, False)
  File "/data/experiment/model.py", line 145, in create_model
    tensor_name_pickle=tensor_name_pickle)
  File "/data/experiment/seq2seq_model.py", line 106, in __init__
    tf.import_graph_def(graph_def, name="")
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/framework/importer.py", line 287, in import_graph_def
    op_def=op_def)
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/framework/ops.py", line 2395, in create_op
    original_op=self._default_original_op, op_def=op_def)
  File "/home/.conda/lib/python2.7/site-packages/tensorflow/python/framework/ops.py", line 1264, in __init__
    self._traceback = _extract_stack()

InternalError (see above for traceback): Dst tensor is not initialized.
     [[Node: embedding_attention_seq2seq/embedding_attention_decoder/attention_decoder/AttnV_0 = Const[dtype=DT_FLOAT, value=Tensor<type: float shape: [1024] values: -0.016628871 -0.2054652 -0.045054652...>, _device="/job:localhost/replica:0/task:0/gpu:0"]()]]

我认为这可能是 tf.Constant 的内存问题引起的。有人遇到过这个问题吗？

最佳答案

我遇到了同样的问题，但是当我尝试使用 C API 从 C++ 应用程序加载和运行推理时。经过大量调整和测试，罪魁祸首似乎是卡住图和 freeze_graph.py 本身。这可能是某种错误。 github 的 TF repo 上实际上有多个问题报告，但由于缺乏事件而被关闭，例如here和 here .我想模型卡住的明显错误不是任何优先事项。

在我的例子中，模型 .pb 文件大约有 500mb，并且在运行 session 时占用了大约 10Gb 的 RAM。它不仅占用了大量的 RAM，而且实际上还慢了几个数量级。

当我切换到仅加载一个 SavedModel 目录时，一切正常。我不确定如何在 python 中实现这一点，但对于 C 代码，我用 TF_LoadSessionFromSavedModel() 替换了 TF_GraphImportGraphDef() 调用。

我使用的是 TF v1.14.0。该库是我用 Bazel 构建的，而不是库存版本。如果有人感兴趣，我可以在这里和那里提供一些细节。只是不确定从哪里开始，我有很多试验和错误。

关于卡住图后的 Tensorflow OOM，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42644658/

26

4

0

文章推荐： sqlite - Sinatra + SQLite + ActiveRecord(不能保存字符串)

文章推荐： android-studio - Android Studio 3.3.1 中的语法高亮消失了

文章推荐： performance - android studio无法打开

ios - 锁定/解锁 iPhone 时 AVCapture session 卡住/卡住
我正在我的 xamarin.forms 应用程序中实现扫描仪功能，为此我正在使用 iOS native AVCaptureSession。但我的问题是在扫描或捕获 session 处于事件状态并且设备
ios媒体选择器仅显示白屏/卡住
所以我目前正在为我的项目制作一个音乐应用程序，它允许用户创建自己的音乐播放列表。但是，当我单击显示媒体选择器按钮时，它只显示白屏，当包含媒体选择器的 View 是 Initial View Contr
Android 模拟器没有响应 - 卡住
当我尝试在模拟器中启动 AVD 时，会出现一个小窗口(见图片)，5 秒后它说没有响应并一直保持这种状态直到我关闭它。我在网上搜索并尝试了所有解决方案，但都没有成功在 BIOS 中启用了虚拟化已安
FFMPEG 帧提取 - 卡住
尝试使用以下命令从视频中提取特定帧(删除了文件的特定名称!: ffmpeg -i video.mp4 -vf "select-gte(n\,6956)"-vframes 10262 文件夹/帧%d.j
ubuntu - 卡住/工作终端？
我怎么知道终端正在继续工作而不中断它？我已经运行了以下 git 命令: clone git://ligo-vcs.phys.uwm.edu/lalsuite.gituote 一段时间后它似乎被卡住了
wpf - 滚动时Datagrid挂起/卡住
我对 WPF 中的数据网格有一个奇怪的问题。我正在为我的应用程序使用 MVVM 模式，并且我的 View 模型实现了 idataerrorinfo 接口(interface)。每当我在添加新行后在我的
输入数据时 Excel 卡住
我有这个 Excel 文件，当我输入数据时它卡住了。例如，我双击一个单元格，输入数据，然后按“输入”。它会卡住而不是进入下面的细胞。按几次“enter”不会解冻程序，唯一有效的是用鼠标选择另一个单元格
c# - 如何知道线程池中的线程挂起/卡住
我有线程池的任务队列，每个任务都有卡住锁定其正在使用的所有资源的倾向。并且除非重新启动服务，否则这些无法释放。 ThreadPool 中有没有办法知道它的线程已经被卡住？我有一个使用超时的想法(虽然我
prolog - 卡住/2个目标阻止已变得无法访问的变量
我制作了以下小程序来确定内存是否用于 freeze(X,Goal) 之类的目标回收时 X变得无法访问: %:- use_module(library(freeze)). % Ciao Prolog n
Java JFrame 卡住
我有一个使用 swing 的简单 java 应用程序。然而，当我执行程序时，框架将会出现，但我无法单击任何地方，并且按钮仅在几秒钟后出现。我对 javas Swing 库非常陌生，所以我可能会丢失一些
Java GUI 卡住
我正在尝试创建一个简单的 TCP 客户端服务器应用程序接口(interface)用户可以在按下相应按钮时启动或停止服务器我创建了一个 StartServer 按钮，当用户按下按钮时它应该连接到服务
Java FTPClient 卡住
我正在尝试从 ftp 服务器下载文件，但在检索文件时卡住了。我正在使用 commons-net-3.6.jar 我注意到的事情当我使用 ftpClient.enterRemotePassiveMod
c++ - SearchPathW 卡住
我正在尝试编写一个函数，该函数将能够找到位于我系统上的可执行文件搜索路径中的任意可执行文件。我遇到了一些输入会导致 SearchPathW 的问题无限期地卡住，我不确定到底发生了什么。 std::op
Nativescript RadSideDrawer 卡住
我的 Nativescript 应用程序的许多页面中都有 RadSideDrawer。主应用程序组件有一个 page-router-outlet并且所有其他页面都通过导航加载到此组件中。带抽屉的页面包
Java - 套接字 - 卡住
我有一个最小的服务器，它等待客户端连接，然后他启动一个线程，将回复发送回客户端，问题是回复。这是服务器的代码: int port = 1234; ServerSocket servSock =
c# - 操作繁忙时表单不执行任何操作(卡住)
我有一个使用 C# 的 WinForms 应用程序。我尝试从文件中读取一些数据并将其插入到数据表中。虽然此操作很忙，但我的表单卡住并且我无法移动它。有谁知道我该如何解决这个问题？最佳答案这可能是因
Javafx GUI 卡住
在我们学校最新的项目中，我遇到了一些问题。我想观察新条目的路径，该路径是由文件导向器按钮选择的，但如果我选择任何文件，整个窗口都会卡住...我猜它被卡住，因为调用了“observePath”方法，但我
输入一百万时 Java 卡住
当我输入一百万作为输入数字时，我的程序卡住了。我该如何解决这个问题？我尝试将第二个 for 循环分离为第二个函数，但没有成功。 import java.io.*; public class Arra
java - transformClassesWithDexBuilderForDebug 卡住
早上好编译我的应用程序时，我在 Android Studio 上遇到问题。我在构建时没有收到关于 app:transformClassesWithDexBuilderForDebug 的任何输出错误，
应用触发器时 PHPMYAdmin 卡住
我正在使用以下触发器 DELIMITER ; CREATE TRIGGER updateCount AFTER INSERT ON user_info FOR EACH ROW BEGIN UPDA

首页

博学

6Ren·AI

商城

卡住图后的 Tensorflow OOM