gpt4 book ai didi

python - 使用自定义数据集而不是 MNIST 进行训练

转载 作者:行者123 更新时间:2023-11-30 09:50:52 27 4
gpt4 key购买 nike

我想使用一个自定义数据集,其中包含英语以外的其他语言的手写字符图像。我打算使用KNN算法对手写字符进行分类。

以下是我目前面临的一些挑战。1.图像大小不同。 - 我们如何解决这个问题,任何 ETL 工作都需要使用 Python 来完成吗?2. 即使我们假设它们大小相同,每个图像的潜在像素也将约为 70 * 70,因为字母比英语复杂,字符之间有很多特征。 - 这对我的训练和表现有何影响?

最佳答案

  1. 选择特定尺寸并调整所有图像的大小(例如使用 PIL 模块);

  2. 我认为这取决于数据的质量和语言本身。如果字母很复杂(如象形文字),那就很困难。否则,如果用细线画出字母,即使在小图片中也能被识别。

不管怎样,如果画出来的字母太相似,识别起来当然会更困难。

一个有趣的想法不是简单地使用像素作为训练数据,您可以创建一些特殊功能,如下所述:http://archive.ics.uci.edu/ml/datasets/Letter+Recognition

关于python - 使用自定义数据集而不是 MNIST 进行训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45388015/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com