python - YoloV5 在第一个 epoch 被杀死-6ren

python - YoloV5 在第一个 epoch 被杀死

转载作者：行者123 更新时间：2023-12-02 02:16:02

我在 Windows 10 上使用具有此配置的虚拟机:

Memory 7.8 GiB
Processor Intel® Core™ i5-6600K CPU @ 3.50GHz × 3
Graphics llvmpipe (LLVM 11.0.0, 256 bits)
Disk Capcity 80.5 GB
OS Ubuntu 20.10 64 Bit
Virtualization Oracle

我按照 the official documentation 中的描述为 Ubuntu 安装了 docker .
我按照 yolo github section for docker 中的描述拉取了 docker 镜像.
由于我没有 NVIDIA GPU，因此无法安装驱动程序或 CUDA。我从roboflow中拉出水族箱并将其安装在折叠式水族箱上。我运行此命令以启动图像并安装我的水族馆文件夹

sudo docker run --ipc=host -it -v "$(pwd)"/Desktop/yolo/aquarium:/usr/src/app/aquarium ultralytics/yolov5:latest

迎接这个横幅

=============== PyTorch ==

NVIDIA Release 21.03 (build 21060478) PyTorch Version 1.9.0a0+df837d0

Container image Copyright (c) 2021, NVIDIA CORPORATION. All rightsreserved.

Copyright (c) 2014-2021 Facebook Inc. Copyright (c) 2011-2014 IdiapResearch Institute (Ronan Collobert) Copyright (c) 2012-2014 DeepmindTechnologies (Koray Kavukcuoglu) Copyright (c) 2011-2012 NECLaboratories America (Koray Kavukcuoglu) Copyright (c) 2011-2013 NYU
(Clement Farabet) Copyright (c) 2006-2010 NEC Laboratories America(Ronan Collobert, Leon Bottou, Iain Melvin, Jason Weston) Copyright(c) 2006 Idiap Research Institute (Samy Bengio) Copyright (c)2001-2004 Idiap Research Institute (Ronan Collobert, Samy Bengio,Johnny Mariethoz) Copyright (c) 2015 Google Inc. Copyright (c)2015 Yangqing Jia Copyright (c) 2013-2016 The Caffe contributorsAll rights reserved.

NVIDIA Deep Learning Profiler (dlprof) Copyright (c) 2021, NVIDIACORPORATION. All rights reserved.

Various files include modifications (c) NVIDIA CORPORATION. Allrights reserved.

This container image and its contents are governed by the NVIDIA DeepLearning Container License. By pulling and using the container, youaccept the terms and conditions of this license:https://developer.nvidia.com/ngc/nvidia-deep-learning-container-license

WARNING: The NVIDIA Driver was not detected. GPU functionality willnot be available. Use 'nvidia-docker run' to start this container;see https://github.com/NVIDIA/nvidia-docker/wiki/nvidia-docker .

NOTE: MOFED driver for multi-node communication was not detected.Multi-node communication performance may be reduced.

所以那里没有错误。
我安装了 pip，并使用 pip wandb 添加了 wandb。我使用了 wandb login 并设置了我的 API key 。

我运行了以下命令:

# python train.py --img 640 --batch 16 --epochs 10 --data ./aquarium/data.yaml --weights yolov5s.pt --project ip5 --name aquarium5 --nosave --cache

并收到此输出:

github: skipping check (Docker image)
YOLOv5 🚀 v5.0-14-g238583b torch 1.9.0a0+df837d0 CPU

Namespace(adam=False, artifact_alias='latest', batch_size=16, bbox_interval=-1, bucket='', cache_images=True, cfg='', data='./aquarium/data.yaml', device='', entity=None, epochs=10, evolve=False, exist_ok=False, global_rank=-1, hyp='data/hyp.scratch.yaml', image_weights=False, img_size=[640, 640], label_smoothing=0.0, linear_lr=False, local_rank=-1, multi_scale=False, name='aquarium5', noautoanchor=False, nosave=True, notest=False, project='ip5', quad=False, rect=False, resume=False, save_dir='ip5/aquarium5', save_period=-1, single_cls=False, sync_bn=False, total_batch_size=16, upload_dataset=False, weights='yolov5s.pt', workers=8, world_size=1)
tensorboard: Start with 'tensorboard --logdir ip5', view at http://localhost:6006/
hyperparameters: lr0=0.01, lrf=0.2, momentum=0.937, weight_decay=0.0005, warmup_epochs=3.0, warmup_momentum=0.8, warmup_bias_lr=0.1, box=0.05, cls=0.5, cls_pw=1.0, obj=1.0, obj_pw=1.0, iou_t=0.2, anchor_t=4.0, fl_gamma=0.0, hsv_h=0.015, hsv_s=0.7, hsv_v=0.4, degrees=0.0, translate=0.1, scale=0.5, shear=0.0, perspective=0.0, flipud=0.0, fliplr=0.5, mosaic=1.0, mixup=0.0
wandb: Currently logged in as: pebs (use `wandb login --relogin` to force relogin)
wandb: Tracking run with wandb version 0.10.26
wandb: Syncing run aquarium5
wandb: ⭐️ View project at https://wandb.ai/pebs/ip5
wandb: 🚀 View run at https://wandb.ai/pebs/ip5/runs/1c2j80ii
wandb: Run data is saved locally in /usr/src/app/wandb/run-20210419_102642-1c2j80ii
wandb: Run `wandb offline` to turn off syncing.

Overriding model.yaml nc=80 with nc=7

                 from  n    params  module                                  arguments                     
  0                -1  1      3520  models.common.Focus                     [3, 32, 3]                    
  1                -1  1     18560  models.common.Conv                      [32, 64, 3, 2]                
  2                -1  1     18816  models.common.C3                        [64, 64, 1]                   
  3                -1  1     73984  models.common.Conv                      [64, 128, 3, 2]               
  4                -1  1    156928  models.common.C3                        [128, 128, 3]                 
  5                -1  1    295424  models.common.Conv                      [128, 256, 3, 2]              
  6                -1  1    625152  models.common.C3                        [256, 256, 3]                 
  7                -1  1   1180672  models.common.Conv                      [256, 512, 3, 2]              
  8                -1  1    656896  models.common.SPP                       [512, 512, [5, 9, 13]]        
  9                -1  1   1182720  models.common.C3                        [512, 512, 1, False]          
 10                -1  1    131584  models.common.Conv                      [512, 256, 1, 1]              
 11                -1  1         0  torch.nn.modules.upsampling.Upsample    [None, 2, 'nearest']          
 12           [-1, 6]  1         0  models.common.Concat                    [1]                           
 13                -1  1    361984  models.common.C3                        [512, 256, 1, False]          
 14                -1  1     33024  models.common.Conv                      [256, 128, 1, 1]              
 15                -1  1         0  torch.nn.modules.upsampling.Upsample    [None, 2, 'nearest']          
 16           [-1, 4]  1         0  models.common.Concat                    [1]                           
 17                -1  1     90880  models.common.C3                        [256, 128, 1, False]          
 18                -1  1    147712  models.common.Conv                      [128, 128, 3, 2]              
 19          [-1, 14]  1         0  models.common.Concat                    [1]                           
 20                -1  1    296448  models.common.C3                        [256, 256, 1, False]          
 21                -1  1    590336  models.common.Conv                      [256, 256, 3, 2]              
 22          [-1, 10]  1         0  models.common.Concat                    [1]                           
 23                -1  1   1182720  models.common.C3                        [512, 512, 1, False]          
 24      [17, 20, 23]  1     32364  models.yolo.Detect                      [7, [[10, 13, 16, 30, 33, 23], [30, 61, 62, 45, 59, 119], [116, 90, 156, 198, 373, 326]], [128, 256, 512]]
[W NNPACK.cpp:80] Could not initialize NNPACK! Reason: Unsupported hardware.
Model Summary: 283 layers, 7079724 parameters, 7079724 gradients, 16.4 GFLOPS

Transferred 356/362 items from yolov5s.pt
Scaled weight_decay = 0.0005
Optimizer groups: 62 .bias, 62 conv.weight, 59 other
train: Scanning '/usr/src/app/aquarium/train/labels.cache' images and labels... 448 found, 0 missing, 1 empty, 0 corrupted: 100%|█| 448/448 [00:00<?, ?
train: Caching images (0.4GB): 100%|████████████████████████████████████████████████████████████████████████████████| 448/448 [00:01<00:00, 313.77it/s]
val: Scanning '/usr/src/app/aquarium/valid/labels.cache' images and labels... 127 found, 0 missing, 0 empty, 0 corrupted: 100%|█| 127/127 [00:00<?, ?it
val: Caching images (0.1GB): 100%|██████████████████████████████████████████████████████████████████████████████████| 127/127 [00:00<00:00, 141.31it/s]
Plotting labels... 

autoanchor: Analyzing anchors... anchors/target = 5.17, Best Possible Recall (BPR) = 0.9997
Image sizes 640 train, 640 test
Using 3 dataloader workers
Logging results to ip5/aquarium5
Starting training for 10 epochs...

     Epoch   gpu_mem       box       obj       cls     total    labels  img_size
  0%|                                                                                                                           | 0/28 [00:00<?, ?it/s]Killed
root@cf40a6498016:~# /opt/conda/lib/python3.8/multiprocessing/resource_tracker.py:216: UserWarning: resource_tracker: There appear to be 6 leaked semaphore objects to clean up at shutdown
  warnings.warn('resource_tracker: There appear to be %d '

根据这个输出，我认为完成了 0 个纪元。
我的 data.yaml 包含这段代码:

train: /usr/src/app/aquarium/train/images
val: /usr/src/app/aquarium/valid/images

nc: 7
names: ['fish', 'jellyfish', 'penguin', 'puffin', 'shark', 'starfish', 'stingray']

wandb.ai不显示任何指标，但我有文件 config.yaml、requirements.txt、wandb-metadata.json 和 wandb-summary.json。

为什么我没有得到任何输出？
难道真的没有培训吗？
如果有培训，我该如何使用我的模型？

最佳答案

问题是虚拟机内存不足。解决方案是创建 16 GB 的交换内存，这样机器就可以将虚拟硬盘驱动器用作 RAM。

关于python - YoloV5 在第一个 epoch 被杀死，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67160576/

文章推荐： ios - Swift 中的 "[self] in"和 "[weak self] in"有什么区别？

文章推荐： gradle - Gradle 任务中 doLast 和 leftShift 之间的区别？

文章推荐： branch - 如何删除已经与 TortoiseGit 合并的本地 Git 分支？

文章推荐： node.js - target.prototype 是类装饰器上的空对象

javascript - 如何找出相对于基本 Epoch 值最接近的 Epoch 时间最大值
这个问题已经有答案了: Find closest date in array with JavaScript (6 个回答) 已关闭 4 年前。我有一个基本纪元时间值和一个纪元时间数组以及相应纪元时
machine-learning - model.save() 保存的是最后一个 epoch 的模型还是最好的 epoch 的模型？
这个单线用于保存keras深度学习神经网络模型。 model.save('my_model.h5') model.save()保存的是最后一个epoch的模型还是最好的epoch的模型？有时，最后一个
python - 为什么 epoch 2 比 epoch 1 花费的时间多 18 倍？
我在 keras 中有以下神经网络(可能没有必要对其进行审查来回答我的问题: 简短摘要:它是一个以图像作为输入并输出图像的神经网络。神经网络主要是卷积网络。我使用发电机。另外，我有两个回调:一个用于
python - 如何在 CNN 中绘制 epoch 与 val_acc 和 epoch 与 val_loss 图？
我使用卷积神经网络 (CNN) 来训练数据集。这里我得到 epoch、val_loss、val_acc、总损失、训练时间等作为历史记录。如果我想计算准确率的平均值，那么如何访问 val_acc，以及如
tensorflow - Epoch 需要越来越多的时间
我可能有一个“臃肿的图表”，请参阅( Why does tf.assign() slow the execution time? )，因为每个纪元都花费越来越多的时间，但我在代码中看不到它。你能帮助我
javascript - $(...).epoch 不是函数类型错误
我正在尝试从网站 http://epochjs.github.io/epoch/real-time 运行一个基本示例我收到以下错误 jQuery.Deferred exception: $(...).
java - Epoch 迄今为止无法正常工作
我正在尝试使用 SimpleDateFormat 进行简单的纪元到日期的转换。每当我运行该程序时，我都会在转换后收到无效日期。我已经在转换器中运行了纪元戳 [并且我还在外部服务器中存储了日期]，所以我
time - 如何将自 Epoch 以来的秒数转换为当前日期和时间？
我知道我不久前发布了这个，但我想出了解决方案。我为名为 Roblox 的游戏编写了此代码，但我只是在此处发布代码，以防其他遇到相同问题的人需要解决方案。无论如何，这是代码: outputTime =
Epoch 或 iso8601 日期格式？
为了在 JSON 中传递时间到/从 Web API，为什么我会选择使用 ISO8601 字符串而不是简单的 UTC 纪元值？例如，这两者是相同的: Epoch = 1511324473 iso8601
epoch 期间的 Pytorch 闪电保存模型
每次验证循环结束时，我都想保存一个检查点。我设置了val_check_interval成为 0.2所以我在每个时期有 5 个验证循环，但检查点回调仅在时期结束时保存模型。我找不到在每个验证循环后保存模
python - TensorFlow 数据集洗牌每个 Epoch
在 manual在 Tensorflow 中的 Dataset 类上，它展示了如何对数据进行混洗以及如何对其进行批处理。然而，如何对每个时期的数据进行洗牌并不明显。我已经尝试了下面的方法，但是数据在第
TensorFlow 损失函数在第一个 epoch 后归零
我正在尝试基于本文实现一个判别性损失函数，例如图像分割:https://arxiv.org/pdf/1708.02551.pdf (此链接仅供读者引用；我不希望有人阅读它来帮助我!) 我的问题:一旦我
Azure数据工厂映射数据流: Epoch timestamp to Datetime
我有一个基于 JSON 的源，我想使用 ADF 映射数据流进行转换。我有一个包含纪元时间戳值的字符串，我想将其转换为日期时间值，以便稍后将其放入 Parquet 文件中。你知道方法吗？这种语言的文档
Azure数据工厂映射数据流: Epoch timestamp to Datetime
我有一个基于 JSON 的源，我想使用 ADF 映射数据流进行转换。我有一个包含纪元时间戳值的字符串，我想将其转换为日期时间值，以便稍后将其放入 Parquet 文件中。你知道方法吗？这种语言的文档
java - 如何从字符串转换为 Epoch 微秒？
我有一个以下格式的字符串:“2019-08-17T09:51:41.775+00:00”。我需要将其转换为纪元微秒，但我的转换总是相差一个小时。这是我目前的代码: String timestamp
python - 是什么导致训练准确度和 epoch 之间损失的大幅跃升？
在 Python 中的 Tensorflow 2.0 中训练神经网络时，我注意到训练精度和损失在不同时期之间发生了巨大变化。我知道打印的指标是整个 epoch 的平均值，但在每个 epoch 之后准确
python - 我试图在神经网络训练中理解 'epochs'。接下来的实验是等价的吗？
假设我有一个定义的神经网络的训练样本(带有相应的训练标签)(神经网络的架构对于回答这个问题无关紧要)。让我们称神经网络为“模型”。为了不产生任何误解，假设我介绍了“模型”的初始权重和偏差。实验 1
pandas - 将几列转换为 epoch pandas
我正在尝试将以下列转换为纪元，为机器学习做准备，我的 csv 的其余部分包含字符串，所以我假设这是最好的方法，我尝试创建一个 numpy 数组并使用 datetime 对其进行转换，等等但这不起作用我
javascript - Date epoch 是安全的唯一标识符吗？
我正在编写一个 Node API 并得到一个模型，我必须为其生成一个15 位随机数。这必须是唯一的，并且不应看起来微不足道(我无法获得自动增量)。我真的不想生成数字并查询 Mongo 数据库以进行存
machine-learning - epoch 和训练步骤是一回事吗？
features = [tf.contrib.layers.real_valued_column("x", dimension=1)] estimator = tf.contrib.learn.Lin

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - YoloV5 在第一个 epoch 被杀死

=============== PyTorch ==