gpt4 book ai didi

python - 错误: 'The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL)' at training time

转载 作者:行者123 更新时间:2023-12-01 09:08:39 25 4
gpt4 key购买 nike

我正在尝试使用 ML-Engine 训练一些网络。我的数据库包含大约 40 000 张猫和狗的图像以及边界框,大小为 ~6GB。当我尝试启动培训时,出现以下错误:

ERROR   2018-08-14 12:05:57 +0200   service
The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
To find out more about why your job exited please check the logs: (....)

我尝试从 BASIC_GPU 配置切换到 STANDARD_1,但这并没有改变任何东西。

如果我训练较小的数据集,它可以正常工作,但对于这个较大的数据集,它总是会因此错误而终止。

非常感谢任何帮助。

最佳答案

将所有数据读入 RAM 后,内存就会耗尽。解决方案是获取更大的实例类型(例如 large_modelcomplex_model_l;有关更多详细信息,请参阅 docs for machine types),或者不要一次读取全部数据。

对于后者,请参阅 tf.data 上的文档。您也可以引用flowers sample ,它早于 tf.data API。

关于python - 错误: 'The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL)' at training time,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51841195/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com