gpt4 book ai didi

tensorflow - 动态张量对齐/裁剪

转载 作者:行者123 更新时间:2023-12-02 00:42:45 28 4
gpt4 key购买 nike

我在 TensorFlow 上实现了全卷积网络。它使用编码器-解码器结构。训练时,我始终使用相同的图像大小(224x224,使用随机裁剪)并且一切正常。

在干扰阶段,我想一次预测一张图像,因为我想使用全图(未裁剪)。例如,此类图像的大小为 [406,256]。这是问题。在编码器-解码器架构中,我添加了两个tesors (z = x + y) .训练时,两个张量的大小匹配。预测我的单个图像时,尺寸不匹配(张量尺寸:[1,47,47,64] vs [1,46,46,64])。我认为这是由在 Conv 和 Pool 层中进行的一些舍入引起的。

我应该在我的架构中更改什么以适用于我想要的任何图像尺寸?我应该更改舍入参数吗?或者添加张量的“裁剪”?

架构实现链接: https://gist.github.com/melgor/0e43cadf742fe3336148ab64dd63138f(问题出现在第166行)

最佳答案

我找到了可变输入大小的解决方案:)

我们真正需要的是一个“裁剪层”,裁剪一个张量以匹配另一个张量。我在这里找到了非常相似的图层:http://tf-unet.readthedocs.io/en/latest/_modules/tf_unet/layers.html(crop_and_concat)。

我刚刚将其设为“crop_and_add”并且它正在运行:

def crop_and_add(x1,x2):
x1_shape = tf.shape(x1)
x2_shape = tf.shape(x2)
# offsets for the top left corner of the crop
offsets = [0, (x1_shape[1] - x2_shape[1]) // 2, (x1_shape[2] - x2_shape[2]) // 2, 0]
size = [-1, x2_shape[1], x2_shape[2], -1]
x1_crop = tf.slice(x1, offsets, size)
return x1_crop + x2

模型 I 中的所有添加都替换为上层(因此合并了编码器和解码器数据)。

此外,模型的输入需要定义为:

image = tf.placeholder(tf.float32, shape=[1, None, None, 3], name="input_image")

所以我们知道我们将传递单个图像并且该图像有 3 个 channel 。但我们既不知道宽度也不知道高度。而且效果很好! (K80 上的 40 FPS 作为 AWS P2,图像大小为 224x{}-图像的拍摄侧有 224)

仅供引用,我还尝试运行 ENET (比 LinkNet 快 2 倍),但在 TensorFlow 中速度较慢。我认为这是因为 PReLu(在 TF 上很慢)。此外,它不支持图像的任意大小,因为 UnPool 层需要通过整数列表(而不是占位符)预定义输出大小。所以 LinkNet 在 TF 中的速度和性能方面看起来更好。

关于tensorflow - 动态张量对齐/裁剪,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45611237/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com