python - Tensorflow 在训练 yolo 时报告了 CUDA_ERROR_ILLEGAL

python - Tensorflow 在训练 yolo 时报告了 CUDA_ERROR_ILLEGAL_ADDRESS 错误

转载作者：行者123 更新时间：2023-12-03 14:53:55

41

4

这是一个非常奇怪的错误。
环境:tf 1.12 + cuda9.0 + cudnn 7.5 + 单RTX 2080

今天我尝试在我的新设备上训练 YOLO V3 网络。批量大小为 4。一开始一切都很顺利，训练照常开始，我可以看到训练过程中的损失减少。

但是，在大约 35 轮时，它报告了一条消息:

2020-03-20 13:52:01.404576: E tensorflow/stream_executor/cuda/cuda_event.cc:48] 事件状态轮询错误:无法查询事件:CUDA_ERROR_ILLEGAL_ADDRESS:遇到非法内存访问
2020-03-20 13:52:01.404908: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:274] 意外事件状态:1

并退出列车进程。

我已经尝试了几次。它是随机发生的。可能在训练过程开始后 30 分钟或几个小时。

但是如果我将批量大小更改为 2。它可以成功训练。

那么为什么会发生这种情况呢？如果我的环境不合适或者不适合RTX 2080，这个bug应该发生在火车进度的早期但中间。我的 yolo 网络中的层在开始时都是可训练的，因此在训练过程中没有任何变化。为什么它在第一轮可以正确训练但中途失败？为什么较小的批量可以成功训练？

我现在该怎么办？我能想到的解决方案是:
1:在 cuda 10 + cudnn 7.5 中编译 tf 1.12 并重试。
2:也许更新 tensorflow 和 cuda？
都花了很多钱。

最佳答案

检查 Cuda/Cudnn/Driver 版本是否适合您的卡 https://docs.nvidia.com/deeplearning/cudnn/support-matrix/index.html#cudnn-versions-764-765 .
如果上述检查结果正常，则此问题可能是由于@ChrisM 评论的 GPU 卡损坏所致。

关于python - Tensorflow 在训练 yolo 时报告了 CUDA_ERROR_ILLEGAL_ADDRESS 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60771063/

41

4

0

文章推荐： machine-learning - 一类 SVM 算法耗时太长

文章推荐： Python 多处理错误 'ForkAwareLocal' 对象没有属性 'connection'

opencv - Yolo 用自己的数据集训练 yolo
我想用 Yolo 建立一个数据库，这是我第一次使用深度学习如何为 Yolo 构建数据库并对其进行训练？如何获得分类的权重？对于刚接触深度学习的人来说是不是太难了？最佳答案是的，您可以轻松做到
yolo - 了解暗网的 yolo.cfg 配置文件
我在互联网上搜索过，但发现的信息很少，我不明白 yolo 的 .cfg 中每个变量/值代表什么文件。所以我希望你们中的一些人可以提供帮助，我认为我不是唯一遇到这个问题的人，所以如果有人知道 2 或 3
python - 在 YOLO 中无法获得正确的 yolo 预训练权重
我正在用 yolor 训练自定义数据集。我成功地运行了一次，但过了一段时间后，我无法很好地运行它。我注意到的第一个错误是在训练部分: Traceback (most recent call last
deep-learning - Yolo 3 在 Yolo 4 中是如何实现的？
我试图了解 Yolo4 的架构。它由主干、颈部、密集预测和稀疏预测组成。知道 Yolo 3 已经有 Backbone ，Yolo 4 是采用 Yolo 3 的所有架构，包括其 Backbone 还
Yolo v8 Training on Nano dataset not working(Yolo v8 Nano数据集训练不起作用)
I'm trying to train a yolov8 nano model with the following py script:我正试图用以下py脚本训练一个yolov8纳米模型：
yolo - 如何在 ML.Net 中对 yolo v3 或 v4 onnx 模型实现后处理
我关注了this microsoft tutorial没有问题。但我想将模型更改为 yolo v3 或 v4。我从 onnx/models 获取 YOLOv4 onnx 模型并能够获得 yolov4
yolo - 如何在 ML.Net 中对 yolo v3 或 v4 onnx 模型实现后处理
我关注了this microsoft tutorial没有问题。但我想将模型更改为 yolo v3 或 v4。我从 onnx/models 获取 YOLOv4 onnx 模型并能够获得 yolov4
YOLO-Darknet 平均损失没有减少
我正在尝试在 Yolo Darknet 中使用 class ->2、filter(21) 训练我的自定义对象，收集了大约 5000 张大小 (1106x620) 的图像，设置学习率 .01 批处理是
yolo - YOLOv3 中的批处理和分割
我正在使用来自 AlexeyAB's fork of Darknet 的 YOLOv3 和 YOLOv3-Tiny .我知道图像大小必须是 32 的倍数。而且 batch除以 subdivisions
YOLO 暗网与 darkflow
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
python - 如何在谷歌colab中使用yad2k(yolo)
感谢您阅读我的问题。我使用谷歌colab。我需要 yad2k 库。也许这不支持pip。有人成功安装yad2k吗？ ImportError Traceback(最近一次调用最后一次) 在 () 13
opencv - yolo 的边界框
我正在使用 YOLO 进行机器学习项目。我正在按照找到的指南创建自己的数据集 here (在如何训练(检测您的自定义对象)部分)。对于边界框，我需要知道我想在给定图片中训练 YOLO 的每个对象的 [
python - YOLO 不预测边界框
我在 coursera 中完成了深度学习特化的 YOLO 作业，它按照作业要求预测了 test.jpg 上的框。但后来我从官方 darknet 网站下载了 yolo.weights 并将其转换为 .h
yolo - 在暗网上训练时 map /图表没有出现？
我目前正在主分支 (https://github.com/AlexeyAB/darknet) 上使用 AlexeyAB 的 linux 版本在 Darknet YOLO 上进行训练， map /图表不
yolo - Darknet Yolov3 盒子坐标
我想在暗网 YOLOv3 上获取边界框坐标(如 xmin、xmax、ymin、ymax)我尝试了一些方法，但是当我在更改代码后编译程序时，我看不到任何差异。如何找到 Darknette 的边界框坐标
python - YOLO anchor 箱
当我阅读 YOLO 论文时，它说它使用 K-means 制作 anchor 框。然而，当我看到实现这个的代码时，它似乎修复了 anchor 大小，如下所示。我希望你描述它的确切含义或指出我对此的误解。
tensorflow - 我们可以使用 Yolo 检测和识别图像中的文本吗
目前我正在使用一种名为“Yolov2”的深度学习模型进行对象检测，我想用它来提取文本并将其保存在磁盘中，但我不知道该怎么做，如果有人知道更多关于那个，请给我建议我使用 Tensorflow 谢谢最
python - 使用 YOLO 或其他图像识别技术来识别图像中存在的所有字母数字文本
我有多个图像图表，所有这些图表都包含作为字母数字字符的标签，而不仅仅是文本标签本身。我希望我的 YOLO 模型能够识别其中存在的所有数字和字母数字字符。我如何训练我的 YOLO 模型来做同样的事情。
darknet - 暗网 YOLO 中的零引用点
我正在尝试为 YOLO/Darknet 中的一些图像手动创建标签文件，我需要为边界框填写一些值。来自 YOLO 网站(https://pjreddie.com/darknet/yolo/): Now
tensorflow - 暗网 YOLO 图像大小
我正在尝试在 Darknet YOLO v2 中训练自定义对象分类器 https://pjreddie.com/darknet/yolo/ 我收集了一个图像数据集，其中大多数尺寸为 6000 x 40

首页

博学

6Ren·AI

商城

python - Tensorflow 在训练 yolo 时报告了 CUDA_ERROR_ILLEGAL_ADDRESS 错误