gpt4 book ai didi

python - 如何在 tensorflow2-gpu 中调试内存不足

转载 作者:行者123 更新时间:2023-12-03 17:25:57 25 4
gpt4 key购买 nike

我正在使用 tensorflow-2 gpu 和 tf.data.Dataset。
小模型训练有效。

当训练一个更大的模型时,首先一切正常:使用 gpu,第一个 epoch 工作没有问题(但我使用了大部分 gpu 内存)。

在验证时,我遇到了 CUDA_ERROR_OUT_OF_MEMORY 的各种分配,无法分配的字节数越来越少(从 922Mb 到 337Mb)。
我目前没有指标也没有回调,我正在使用 tf.keras.Model.fit .
如果我删除验证数据,培训将继续。

我的问题是什么?我该如何调试?

在 tf1 中,我可以使用 RunOptions(report_tensor_allocations_upon_oom=True) , tf2 中是否存在任何等价物?

这发生在 tensorflow==2.1.0 。

最佳答案

这些都没有发生在
2.0 alpha TensorFlow 但在 2.0 中。

pip安装tensorflow-gpu==2.0.0:有
内存泄露!
pip 安装 tensorflow-gpu==2.0.0-alpha:
没关系!

试试看

关于python - 如何在 tensorflow2-gpu 中调试内存不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60933768/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com