gpt4 book ai didi

deep-learning - 为什么 EMNIST ByMerge 和 Balanced 数据集各有 47 个类?

转载 作者:行者123 更新时间:2023-12-03 23:09:25 24 4
gpt4 key购买 nike

我使用 EMNIST 作为使用深度学习进行文本检测和识别的数据集。我从 https://pypi.org/project/emnist/ 下载了数据集(使用 pip install emnist )。数据集来自 https://www.nist.gov/itl/products-and-services/emnist-dataset它对它们的描述如下:

EMNIST ByClass: 814,255 characters. 62 unbalanced classes.

EMNIST ByMerge: 814,255 characters. 47 unbalanced classes.

EMNIST Balanced: 131,600 characters. 47 balanced classes.

EMNIST Letters: 145,600 characters. 26 balanced classes.

EMNIST Digits: 280,000 characters. 10 balanced classes.

EMNIST MNIST: 70,000 characters. 10 balanced classes.


其中大部分是有意义的,例如 62 个类由 10 个数字、26 个大写字母和 26 个小写字母组成。但是对于 ByMerge 和 Balanced,我们有 47 个。
我自己查看了数据并找到了 10 个数字,26 个字母(大写和小写的混合),然后据我所知,其余 11 个是随机的小写字母('a'、'b'、'd'、' e','f','g','h','n','q','r','t')。
有谁知道为什么特别包括这些额外的 11 个?

最佳答案

从那以后,我通过查看论文 EMNIST:G. Cohen 对手写信件的扩展 MNIST(可在此处获取:https://arxiv.org/pdf/1702.05373v1.pdf)找到了这个问题的答案。

这解释了许多字母在字符识别方面存在问题,即大小写变体非常相似。这会导致尝试对这些字母进行分类时出现问题。为了解决这个问题,他们合并了他们认为这是一个问题的字母。

从论文:

The merged classes, as suggested by the NIST, are for the letters C, I, J, K, L, M, O, P, S, U, V, W, X, Y and Z.



这说明了缺少的类(尽管我希望看到 62 个平衡类选项或 36 个类选项合并所有字母)。

关于deep-learning - 为什么 EMNIST ByMerge 和 Balanced 数据集各有 47 个类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59638769/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com