gpt4 book ai didi

Tensorflow 对象检测训练被杀死,资源匮乏?

转载 作者:行者123 更新时间:2023-12-01 12:19:58 26 4
gpt4 key购买 nike

此问题已被部分询问 herehere没有跟进,所以也许这不是问这个问题的地方,但我已经找到了更多的信息,我希望可以得到这些问题的答案。

我一直在尝试在我自己的大约 1k 张照片库上训练 object_detection。我一直在使用提供的管道配置文件“ssd_inception_v2_pets.config”。
我相信我已经正确设置了训练数据。该程序似乎开始训练就好了。当它无法读取数据时,它会发出错误警报,我修复了这个问题。

我的 train_config 设置如下,但我更改了一些数字以尝试让它以更少的资源运行。

train_config: {
batch_size: 1000 #also tried 1, 10, and 100
optimizer {
rms_prop_optimizer: {
learning_rate: {
exponential_decay_learning_rate {
initial_learning_rate: 0.04 # also tried .004
decay_steps: 800 # also tried 800720. 80072
decay_factor: 0.95
}
}
momentum_optimizer_value: 0.9
decay: 0.9
epsilon: 1.0
}
}
fine_tune_checkpoint: "~/Downloads/ssd_inception_v2_coco_11_06_2017/model.ckpt" #using inception checkpoint
from_detection_checkpoint: true
data_augmentation_options {
random_horizontal_flip {
}
}
data_augmentation_options {
ssd_random_crop {
}
}
}

基本上,我认为正在发生的事情是计算机的资源消耗非常快,我想知道是否有人进行了需要更多时间来构建但使用更少资源的优化?

或者我是否错误地解释了为什么该进程被杀死,有没有办法让我从内核中获取更多信息?

这是我在进程被终止后得到的 Dmesg 信息。
[711708.975215] Out of memory: Kill process 22087 (python) score 517 or sacrifice child
[711708.975221] Killed process 22087 (python) total-vm:9086536kB, anon-rss:6114136kB, file-rss:24kB, shmem-rss:0kB

最佳答案

我遇到了和你一样的问题。实际上,内存已满是由 data_augmentation_options ssd_random_crop 引起的。 ,因此您可以删除此选项并将批量大小设置为 8 或更小,即 2,4。当我将批量大小设置为 1 时,我也遇到了一些由 nan 损失引起的问题。

另一件事是参数epsilon应该是一个非常小的数字,例如根据“深度学习”一书的1e-6。因为epsilon是用来避免分母为零的,但是这里的默认值是1,所以我认为设置为1是不正确的。

关于Tensorflow 对象检测训练被杀死,资源匮乏?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45150773/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com