python-3.x - 我应该如何使用 mode.predict_generator 来评估混淆矩阵中的模型性能？-6ren

python-3.x - 我应该如何使用 mode.predict_generator 来评估混淆矩阵中的模型性能？

转载作者：行者123 更新时间：2023-11-30 09:15:38

26

4

我正在尝试使用混淆矩阵评估常见狗和猫过滤数据集中的迁移学习模型。我的代码基于tensorflow的迁移学习教程。训练的准确率图表显示准确率高于 90%。

但是，使用生成器获取真实的 labes 并使用 model.predict_generator 获取预测数组会引发不一致的结果。首先，准确性不稳定，如果您第二次运行预测，它会改变值。其次，与单个实例上的 model.predict 相比，我通过使用 model.predict_generator 获得的预测似乎是错误的。

为了快速测试基于ImageDataGenerator的混淆矩阵，我下载了 5 张猫的图像和 5 张狗的图像。然后我从该文件夹创建了另一个生成器，并检查标签和类是否与训练相同。

两种奇怪的行为之后，我只是使用 sklearn 指标混淆矩阵来使用 model.predict_generator 和我从生成器获得的标签作为真实标签来评估预测。

第一次运行时，我得到了 0.9 的准确率，欢呼吧!但是，如果我第二次尝试 model.predict_generator，它会抛出数组输出的其他值，并且精度会下降到 0.5。之后它就不再改变了......什么结果是正确的？为什么会改变？

我注意到你必须运行两次才能得到最终结果，但得到的结果是错误的。我编写了一些代码来单独测试每个图像，并且我的预测没有错误。那么我做错了什么？或者发电机不适用于这种情况。这有点令人困惑

代码可以在我的 github 存储库中进行破解，如果您没有 GPU，则可以在 google colaboratory 中使用代码来运行。事实上，我的小型东芝卫星在仅 2 GB 和 300 cuda 的 nvidia gpu 上运行良好

complete code at my git

代码被组织为 jupyter 笔记本，但是在这里我添加了代码迁移学习基于https://www.tensorflow.org/tutorials/images/transfer_learning

创建生成器:

test_base_dir = '.'
test_dir = os.path.join( test_base_dir, 'test')
test_datagen_2 = ImageDataGenerator( rescale = 1.0/255. )
test_generator = test_datagen_2.flow_from_directory( test_dir,
                                                     batch_size  = 1,
                                                     class_mode  = binary', 
                                                     target_size = (image_size, image_size))

对于预测:

   filenames = test_generator.filenames
   nb_samples = len(filenames)
   y_predict = model.predict_generator(test_generator,steps = 
   nb_samples)
   y_predict

我使用 numpy 进行舍入，最终使用混淆矩阵度量


from sklearn.metrics  import confusion_matrix
cm = confusion_matrix(y_true=test_generator.labels, y_pred=y_predict_rounded)
cm

手动验证是:

def prediction(path_img):
img = image.load_img(path_img, target_size=(150,150))
x = image.img_to_array(img)
x = x/255.
x = np.expand_dims(x, axis=0)
classes = model.predict(x)
plt.imshow(img)
if classes > 0.5:
    print(path_img.split('/')[-1]+' is a dog')
else:
     print(path_img.split('/')[-1]+' is a cat')   
return classes

我按以下方式使用:

y_pred_m = []
files=[]
for filename in os.listdir(test_dir):
    file = test_dir+'/'+filename
    for item in os.listdir(file):
        file2 = file+'/'+item
        if file2.split('.')[-1]=='jpg':
            files.append(file2)

预测是:

prediction_array = [prediction(img) for img in files]

np.round(prediction_array, decimals=0)

预期结果应该是具有与训练相似的准确度水平的混淆矩阵。由于单独验证每个示例似乎预测没有错误，但是 model.predict_generate 似乎出错了。

最佳答案

问题在于默认 _flow_from_directory_ 使用 shuffle = True。如果 shuffle 变为 False，则预测是正确的。然而，即使 shuffle 为 True，使用验证数据集来评估训练似乎也是正确的。我已经更新了 git 以填充这些更改

# Flow validation images in batches of 20 using test_datagen generator
test_generator =  test_datagen_2.flow_from_directory( test_dir,
                                                  batch_size  = 1,
                                                  class_mode  = 'binary', 
                                                  target_size = (image_size, 
image_size),
                                                  shuffle = False)

关于python-3.x - 我应该如何使用 mode.predict_generator 来评估混淆矩阵中的模型性能？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56695299/

26

4

0

文章推荐： javascript - 输入搜索在 Edge、IE 或 Firefox 中不起作用

文章推荐： javascript - Angular 7 从 observable 中提取数据

文章推荐： javascript - 如何验证排序代码以返回银行名称？

文章推荐： java - Eclipse:如何以编程方式打开编辑器

Makefile变量扩展/评估
目前，由于生成变量的评估，我的Makefile遇到了问题。我降低了复杂性，仅保留了导致问题的基本要素。读取Makefile时， $(LIST)被评估为文件列表。在步骤1中，其中一个文件被删除。在
JavaScript 评估
为什么这 eval 没有调用alert("Summer") ？ eval('(caption="Summer";alert(caption))'); 和《夏天》里的台词有关系吗？最佳答案 Uncau
JavaScript 评估
我正在努力让以下工作正常进行。最初似乎可以工作，但不知何故它停止工作了 var setCommonAttr = "1_row1_common"; var val = document.getEleme
javascript 评估
eval('({"suc":true})') 以上错误，应该是: eval('{"suc":true}') 为什么？最佳答案当尝试评估时，解释器会看到大括号并认为它是一个 block 开头。将其括
JavaScript 评估
我的页面 A 发出了 ajax 调用并引入了片段 B。该片段被添加到 DOM 中，并且该片段中的所有脚本都经过了评估。在该代码片段中，我有 2 个脚本标签: function doOptions()
javascript && 评估
这里是javascript代码: var test = { "h" : function (a) {return a;}, "say" : "hello" }; 第一次运行: test
PHP 评估 $a ="$a"?
我正在查看一些工作代码，并遇到了这一行: eval("\$element = \"$element\";"); 我真的很困惑为什么任何 PHP 开发人员都会写这一行。除了给自己设置一个变量之外，这还有
Java- && 评估
谁能帮我解决以下问题: 我有这样的代码: if(cond1 && cond2 && .. && cond10) 这里，cond1 是昂贵的操作，其输出是 boolean 值。现在我的问题是，当 co
华为AppCube通过中国信通院“低代码开发平台通用能力要求”评估
**摘要：**华为AppCube应用魔方顺利通过信通院评估，被认证为具备 “低代码开发平台通用能力”的企业服务平台。本文分享自华为云社区《华为AppCube通过中国信通院“低代码开发平台通用能力要求
php - 评估()不工作？
我正在尝试通过 PHP 从图像的 EXIF 数据中获取焦距。这是我目前得到的代码: $exif = exif_read_data("$photo"); $length10 = $exif['Foca
javascript - Null不是对象(评估
我想使用id =“key”将一个类添加到元素中，但是为什么不起作用？我是js的初学者:这是代码: audio.classList.add('yellow'); 这是错误: null is not an
PHP XPATH 评估
这是我的 XML: QueWay Password Recovery 现在我想用 php 用 xpath 选择文本“QueWay”。到目前为止我所拥有的一切都很好: $xml =
java - If 语句评估
使用下面的代码，即使我输入的数字大于 18，我也会得到这个结果。运行:你今年多大？ 21你还没有达到成年年龄!构建成功(总时间:3 秒) 我是java新手，正在尝试自学，有人可以帮忙吗？ impor
函数参数的 R 评估
我正在阅读 http://www.cran.r-project.org/doc/manuals/R-lang.pdf手册第 4.3 章，我就是不明白。也许有人可以给我一个快速的解释，为什么 R 的行为
c# - IEnumerable 评估
在这个实现中，每次都会评估 hand 并返回另一个列表吗？ foreach (Card card in hand.Cards) { } 我们应该用下面的实现替换上面的实现吗？ var cards =
c# - 评估 LambdaExpression？
我正在制作 LINQ lambda 表达式: Expression> add = (x, y) => x + y; 但现在我将如何评估它，比如说找到 2+3？最佳答案这应该适合你: var su
c++ - 评估 IF 条件的最有效方法是什么？
我正在制作一个语言解释器，我已经到了需要评估 if 语句的地步。起初我认为这很简单，我能够让我的解释器评估简单的 if 条件，10 == 10 但是当我试图让它评估更复杂的条件时， 10 == 10
python - PySpark 评估
我正在尝试以下代码，该代码向 RDD 中的每一行添加一个数字，并使用 PySpark 返回 RDD 列表。 from pyspark.context import SparkContext file
compilation - 评估-何时使用？
在阅读了很多关于 Lisp eval-when 运算符的文档后，我仍然无法理解它的用途，我知道使用这个运算符我可以控制表达式的计算时间，但我做不到找出任何可能适用的示例？最好的问候，utxee. 最
C++ 业务规则表达式解析器/评估
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，

首页

博学

6Ren·AI

商城

python-3.x - 我应该如何使用 mode.predict_generator 来评估混淆矩阵中的模型性能？