gpt4 book ai didi

python - 在 VGG 神经网络中放置和获取大图像的策略

转载 作者:行者123 更新时间:2023-12-04 11:26:44 25 4
gpt4 key购买 nike

我正在使用使用 VGG(神经网络)的基于转移式的深度学习方法。后者适用于小尺寸(512x512 像素)的图像,但是当输入图像很大(尺寸 > 1500 像素)时它会提供失真的结果。该方法的作者建议将输入的大图像分成几部分,然后对第 1 部分和第 2 部分进行风格迁移,最后将这两个部分连接起来得到最终的大结果图像,因为 VGG 是为小图像制作的......这种方法的问题在于生成的图像将在“粘合”部分的区域级别具有一些不一致的区域。
我该如何纠正这些区域?
是这种划分方法的替代方法吗?

最佳答案

欢迎来到 SO,让吕克。很好的第一个问题。
当您说 VGG 时,我希望您指的是 VGG-16。该架构最终使用全连接层,这意味着您只能将其用于特定大小的图像。我相信 ImageNet 默认是 224x224 像素。
如果你想不加修改地使用 VGG-16,你必须使用这种尺寸的图像。然而,许多人最终移除了完全连接的层(特别是在风格转移的背景下),以便以他们想要的任何大小进行输入。
任何尺寸?好吧,您可能想要确保图像是 32 的倍数,因为 VGG-16 带有 5 个 MaxPooling 操作,每次都将尺寸减半。
但仅仅因为网络现在可以消化任何大小的图像并不意味着预测将是有意义的。 VGG-16 学习了 1000 个不同对象在 224px 的比例下的样子。使用 1500 像素的猫可能不会激活与猫相关的神经元。那是问题吗?
这取决于您的用例。我不相信 VGG-16 在 ImageNet 的上下文中对这些高分辨率图像进行分类,但这不是您所追求的。您想使用预训练的 VGG-16,因为它应该已经学习了一些在风格迁移中可能会派上用场的能力。无论输入的大小如何,这通常都是正确的。与从头开始相比,几乎总是首选从预训练模型开始。您可能想要考虑为您的任务微调此模型,因为 A) 样式转移与分类完全不同,并且 B) 您使用的是完全不同的图像比例。
由于您遇到的问题完全相同,我从未找到这种推荐的基于补丁的方法来提供帮助。虽然 CNN 学习识别图像中的局部模式,但它们也会学习全局分布,这就是为什么这不能很好地工作的原因。你总是可以尝试使用插值技术合并补丁,但我个人不会浪费时间。
而是像你提到的那样输入完整的图像,在你删除完全连接的层后应该可以工作。规模将关闭,但如果您真的想要高分辨率输入,则无能为力。微调 VGG-16,以便它可以学习适应您手头的用例。
如果您不想进行微调,我认为您无能为力。当您更改分辨率时,使用网络训练的转换/规模或接受低于最佳性能的结果。

关于python - 在 VGG 神经网络中放置和获取大图像的策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63829340/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com