- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将基本分类模型 ( https://machinelearningmastery.com/handwritten-digit-recognition-using-convolutional-neural-networks-python-keras/ ) 扩展到单个对象的简单对象检测模型。
分类模型只是对图像中的手写数字进行分类,其中数字填充了图像的大部分。为了为对象检测创建有意义的数据集,我使用 MNIST 数据集作为基础,并通过以下步骤将其转换为新数据集
图 1:步骤 1 和 2 的说明。
图 2:一些生成的真实边界框。
模型的输出向量受到 YOLO 定义的启发,但针对单个对象:
y = [p, x, y, w, h, c0, ..., c9]
其中 p = 对象的概率,(x, y, w, h) = 边界框中心,宽度和高度作为图像大小的一部分,c0-c9 = 类概率(每个数字一个)。
因此,为了将分类模型更改为对象检测模型,我只需将最后一个 softmax 层替换为具有 15 个节点的全连接层(y
中的每个值一个),并编写自定义损失可以将预测与真实情况进行比较的函数。
但是,当我尝试训练模型时,我收到了神秘的错误 tensorflow.python.framework.errors_impl.InvalidArgumentError: 不兼容的形状:[15] vs. [200]
其中 [ 15]
是最后一层中的节点数,[200]
是我指定用于训练的批量大小(我通过更改值并再次运行来验证这一点)。它们不可能必须相同,所以我想我在模型中的张量维度方面错过了一些重要的东西,但我不知道是什么。
注意:我对批处理的理解是模型在训练期间一次处理多少个样本(图像)。因此,批量大小应该是训练数据大小的偶数部分是合理的。但没有任何东西可以将其与模型中的输出节点数量联系起来。
感谢任何帮助。
这是完整的代码:
import numpy as np
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import Flatten
from keras.layers.convolutional import Conv2D
from keras.layers.convolutional import MaxPooling2D
from keras import backend as K
def increase_image_size(im_set, new_size):
num_images = im_set.shape[0]
orig_size = im_set[0].shape[0]
im_stack = np.zeros((num_images, new_size, new_size), dtype='uint8')
# Put MNIST digits at random positions in new images
for i in range(num_images):
x0 = int(np.random.random() * (new_size - orig_size - 1))
y0 = int(np.random.random() * (new_size - orig_size - 1))
x1 = x0 + orig_size
y1 = y0 + orig_size
im_stack[i, y0:y1, x0:x1] = im_set[i]
return im_stack
# Get bounding box annotations from images and object labels
def get_image_annotations(X_train, y_train):
num_images = len(X_train)
annotations = np.zeros((num_images, 15), dtype='float')
for i in range(num_images):
annotations[i] = get_image_annotation(X_train[i], y_train[i])
return annotations
def get_image_annotation(X, y):
sz_y, sz_x = X.shape
y_indices, x_indices = np.where(X > 0)
y_min = max(np.min(y_indices) - 1, 0)
y_max = min(np.max(y_indices) + 1, sz_y)
x_min = max(np.min(x_indices) - 1, 0)
x_max = min(np.max(x_indices) + 1, sz_x)
bb_x = (x_min + x_max) / 2.0 / sz_x
bb_y = (y_min + y_max) / 2.0 / sz_y
bb_w = (x_max - x_min) / sz_x
bb_h = (y_max - y_min) / sz_y
classes = np.zeros(10, dtype='float')
classes[y] = 1
output = np.concatenate(([1, bb_x, bb_y, bb_w, bb_h], classes))
return output
def custom_cost_function(y_true, y_pred):
p_p = y_pred[0]
x_p = y_pred[1]
y_p = y_pred[2]
w_p = y_pred[3]
h_p = y_pred[4]
p_t = y_true[0]
x_t = y_true[1]
y_t = y_true[2]
w_t = y_true[3]
h_t = y_true[4]
c_pred = y_pred[5:]
c_true = y_true[5:]
c1 = K.sum((c_pred - c_true) * (c_pred - c_true))
c2 = (x_p - x_t) * (x_p - x_t) + (y_p - y_t) * (y_p - y_t) \
+ (K.sqrt(w_p) - K.sqrt(w_t)) * (K.sqrt(w_p) - K.sqrt(w_t)) \
+ (K.sqrt(h_p) - K.sqrt(h_t)) * (K.sqrt(h_p) - K.sqrt(h_t))
lambda_class = 1.0
lambda_coord = 1.0
return lambda_class * c1 + lambda_coord * c2
def baseline_model():
# create model
model = Sequential()
model.add(Conv2D(32, (5, 5), input_shape=(1, 100, 100), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.2))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(15, activation='linear'))
# Compile model
model.compile(loss=custom_cost_function, optimizer='adam', metrics=['accuracy'])
return model
def mnist_object_detection():
K.set_image_dim_ordering('th')
# fix random seed for reproducibility
np.random.seed(7)
# Load data
print("Loading data")
(X_train, y_train), (X_test, y_test) = mnist.load_data()
# Adjust input images
print("Adjust input images (increasing image sizes and moving digits)")
X_train = increase_image_size(X_train, 100)
X_test = increase_image_size(X_test, 100)
print("Creating annotations")
y_train_prim = get_image_annotations(X_train, y_train)
y_test_prim = get_image_annotations(X_test, y_test)
print("...done")
# reshape to be [samples][pixels][width][height]
X_train = X_train.reshape(X_train.shape[0], 1, 100, 100).astype('float32')
X_test = X_test.reshape(X_test.shape[0], 1, 100, 100).astype('float32')
# normalize inputs from 0-255 to 0-1
X_train = X_train / 255
X_test = X_test / 255
# build the model
print("Building model")
model = baseline_model()
# Fit the model
print("Training model")
model.fit(X_train, y_train_prim, validation_data=(X_test, y_test_prim), epochs=10, batch_size=200, verbose=1)
if __name__ == '__main__':
mnist_object_detection()
当我运行它时,我收到错误:
/Users/gedda/anaconda3/envs/keras-obj-det/bin/pythonn /Users/gedda/devel/tensorflow/digit-recognition/object_detection_reduced.py
Using TensorFlow backend.
Loading data
Adjust input images (increasing image sizes and moving digits)
Creating annotations
...done
Building model
2018-11-30 13:26:34.030159: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: SSE4.1 SSE4.2 AVX
2018-11-30 13:26:34.030463: I tensorflow/core/common_runtime/process_util.cc:69] Creating new thread pool with default inter op setting: 8. Tune using inter_op_parallelism_threads for best performance.
Training model
Train on 60000 samples, validate on 10000 samples
Epoch 1/3
Traceback (most recent call last):
File "/Users/gedda/devel/tensorflow/digit-recognition/object_detection_reduced.py", line 140, in <module>
mnist_object_detection()
File "/Users/gedda/devel/tensorflow/digit-recognition/object_detection_reduced.py", line 136, in mnist_object_detection
model.fit(X_train, y_train_prim, validation_data=(X_test, y_test_prim), epochs=3, batch_size=200, verbose=1)
File "/Users/gedda/anaconda3/envs/keras-obj-det/lib/python3.6/site-packages/keras/engine/training.py", line 1039, in fit
validation_steps=validation_steps)
File "/Users/gedda/anaconda3/envs/keras-obj-det/lib/python3.6/site-packages/keras/engine/training_arrays.py", line 199, in fit_loop
outs = f(ins_batch)
File "/Users/gedda/anaconda3/envs/keras-obj-det/lib/python3.6/site-packages/keras/backend/tensorflow_backend.py", line 2715, in __call__
return self._call(inputs)
File "/Users/gedda/anaconda3/envs/keras-obj-det/lib/python3.6/site-packages/keras/backend/tensorflow_backend.py", line 2675, in _call
fetched = self._callable_fn(*array_vals)
File "/Users/gedda/anaconda3/envs/keras-obj-det/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1439, in __call__
run_metadata_ptr)
File "/Users/gedda/anaconda3/envs/keras-obj-det/lib/python3.6/site-packages/tensorflow/python/framework/errors_impl.py", line 528, in __exit__
c_api.TF_GetCode(self.status.status))
tensorflow.python.framework.errors_impl.InvalidArgumentError: Incompatible shapes: [15] vs. [200]
[[{{node training/Adam/gradients/loss/dense_2_loss/mul_7_grad/BroadcastGradientArgs}} = BroadcastGradientArgs[T=DT_INT32, _class=["loc:@training/Adam/gradients/loss/dense_2_loss/mul_7_grad/Reshape"], _device="/job:localhost/replica:0/task:0/device:CPU:0"](training/Adam/gradients/loss/dense_2_loss/mul_7_grad/Shape, training/Adam/gradients/loss/dense_2_loss/mul_7_grad/Shape_1)]]
Process finished with exit code 1
最佳答案
所有张量的第一个维度是批量大小。
你的损失可能应该在第二个维度上起作用:
def custom_cost_function(y_true, y_pred):
p_p = y_pred[:,0]
x_p = y_pred[:,1]
y_p = y_pred[:,2]
w_p = y_pred[:,3]
h_p = y_pred[:,4]
p_t = y_true[:,0]
x_t = y_true[:,1]
y_t = y_true[:,2]
w_t = y_true[:,3]
h_t = y_true[:,4]
c_pred = y_pred[:,5:]
c_true = y_true[:,5:]
........
关于tensorflow - 在 Keras 中训练目标检测模型时出现张量形状不兼容的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53558571/
这是一个与 Get OS-Version in WinRT Metro App C# 相关的问题但不是它的重复项。 是否有任何选项可以从 Metro 应用程序检测系统上是否有可用的桌面功能?据我所知,
我想在闹钟响起时做点什么。例如, toast 或设置新闹钟。我正在寻找可以检测闹钟何时响起的东西。首先,我在寻找广播 Action ,但找不到。也许是我的错? 当闹钟响起时,还有其他方法可以做些什么吗
如果某个 JS 添加了一个突变观察者,其他 JS 是否有可能检测、删除、替换或更改该观察者?我担心的是,如果某些 JS 旨在破坏某些 DOM 元素而不被发现,那么 JS 可能想要摆脱任何观察该 DOM
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想要改善这个问题吗?更新问题,以便将其作为on-topi
有没有办法在您的 Activity/应用程序中(以编程方式)知道用户已通过 USB 将您的手机连接到 PC? 最佳答案 有人建议使用 UMS_CONNECTED自最新版本的 Android 起已弃用
我正在想办法测量速度滚动事件,这将产生某种代表速度的数字(相对于所花费的时间,从滚动点 A 到点 B 的距离)。 我欢迎任何以伪代码形式提出的建议...... 我试图在网上找到有关此问题的信息,但找不
某些 JavaScript 是否可以检测 Skype 是否安装? 我问的原因是我想基于此更改链接的 href:如果未安装 Skype,则显示一个弹出窗口,解释 Skype 是什么以及如何安装它,如果已
我们正在为 OS X 制作一个使用 Quartz Events 移动光标的用户空间设备驱动程序,当游戏(尤其是在窗口模式下运行的游戏)无法正确捕获鼠标指针时,我们遇到了问题(= 将其包含/保留在其窗口
我可以在 Controller 中看到事件 $routeChangeStart,但我不知道如何告诉 Angular 留下来。我需要弹出类似“您要保存、删除还是取消吗?”的信息。如果用户选择取消,则停留
我正在解决一个问题,并且已经花了一些时间。问题陈述:给你一个正整数和负整数的数组。如果索引处的数字 n 为正,则向前移动 n 步。相反,如果为负数(-n),则向后移动 n 步。假设数组的第一个元素向前
我试图建立一个条件,其中 [i] 是 data.length 的值,问题是当有超过 1 个值时一切正常,但当只有 1 个值时,脚本不起作用。 out.href = data[i].hr
这是我的问题,我需要检测图像中的 bolt 和四分之一,我一直在搜索并找到 OpenCV,但据我所知它还没有在 Java 中。你们打算如何解决这个问题? 最佳答案 实际上有一个 OpenCV 的 Ja
是否可以检测 ping? IE。设备 1 ping 设备 2,我想要可以在设备 2 上运行的代码,该代码可以在设备 1 ping 设备时进行检测。 最佳答案 ping 实用程序使用的字面消息(“ICM
我每天多次运行构建脚本。我的感觉是我和我的同事花费了大量时间等待这个脚本执行。现在想知道:我们每天花多少时间等待脚本执行? .我可以对总体平均值感到满意,即使我真的很想拥有每天的数据(例如“上周一我们
我已经完成了对项目的编码,但是当我在客户端中提交了源代码时,就对它进行了测试,然后检测到内存泄漏。我已经在Instruments using Leaks中进行了测试。 我遇到的问题是AVPlayer和
我想我可以用 std.traits.functionAttributes 来做到这一点,但它不支持 static。对于任何类型的可调用对象(包含 opCall 的结构),我如何判断该可调用对象是否使用
我正在使用多核 R 包中的并行和收集函数来并行化简单的矩阵乘法代码。答案是正确的,但并行版本似乎与串行版本花费的时间相同。 我怀疑它仅在一个内核上运行(而不是在我的机器上可用的 8 个内核!)。有没有
我正在尝试在读取 csv 文件时编写一个这样的 if 语句: if row = [] or EOF: do stuff 我在网上搜索过,但找不到任何方法可以做到这一点。帮忙? 最佳答案 wit
我想捕捉一个 onFontSizeChange 事件然后做一些事情(比如重新渲染,因为浏览器已经改变了我的字体大小)。不幸的是,不存在这样的事件,所以我必须找到一种方法来做到这一点。 我见过有人在不可
我有一个使用 Windows 服务的 C# 应用程序,该服务并非始终打开,我希望能够在该服务启动和关闭时发送电子邮件通知。我已经编写了电子邮件脚本,但我似乎无法弄清楚如何检测服务状态更改。 我一直在阅
我是一名优秀的程序员,十分优秀!