gpt4 book ai didi

machine-learning - 是什么导致 Caffe 抛出总线错误

转载 作者:行者123 更新时间:2023-11-30 08:46:38 25 4
gpt4 key购买 nike

对于我一直在运行的实验,Caffe 一直崩溃。我的实验涉及使用 AlexNet 模型在相同数据的不同子集上训练网络。对于每次试验,我都会为该特定数据子集生成一个 LMDB,然后修改我的网络 .prototxt 以匹配参数。经过 40 多次试验,我没有遇到任何问题。然而,一项特定试验在 227 次训练迭代后始终崩溃。给出的错误只是“总线错误(核心转储)”。无论我是在 GPU 还是 CPU 上进行训练,这种情况都会发生。搜索没有产生任何其他出现此错误的结果。显然这是某种内存寻址错误。我使用的是带有 64GB RAM 和 12GB VRAM 的 Nvidia DIGITS 盒子。系统监视器显示我使用的内存远未达到系统的全部内存。如果有帮助的话,我可以提供我的 prototxt。但是,数据集太大,无法上传(>20GB)。

I1128 12:50:01.558748 20000solver.cpp:228] 迭代 227,损失 = 5.8273
I1128 12:50:01.558786 20000solver.cpp:244] 训练净输出#0:损失 = 5.8273 (* 1 = 5.8273 损失)
I1128 12:50:01.558796 20000 sgd_solver.cpp:106] 迭代 227,lr = 0.001总线错误(核心转储)

根据这个question ,总线错误在我正在使用的现代英特尔机器上不存在。什么可能导致此问题?

最佳答案

我发现了原因。我使用另一台计算机生成 LMDB 并将其传输到带有闪存驱动器运行 caffe 的计算机。由于某种原因,将文件传输到此闪存驱动器会导致 lmdb 从 ~20GB 被截断到 15GB,而且没有任何警告。我认为 caffe 似乎在到达 lmdb 的意外结尾时崩溃了。重新传输文件并确保它没有被截断解决了问题。

关于machine-learning - 是什么导致 Caffe 抛出总线错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40935466/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com