gpt4 book ai didi

python - python中的图像分类

转载 作者:太空狗 更新时间:2023-10-29 16:56:28 25 4
gpt4 key购买 nike

我正在寻找一种对主要由文本组成的扫描页面进行分类的方法。

这是我的问题的细节。我有大量扫描文档,需要检测这些文档中是否存在某些类型的页面。我计划将文档“爆破”到它们的组成页面(每个页面都是单独的图像)并将这些图像中的每一个分类为“A”或“B”。但我想不出最好的方法来做到这一点。

更多详情:

  • 我有很多“A”和“B”图像(页面)的例子,所以我可以进行监督学习。
  • 我不清楚如何最好地从这些图像中提取特征以进行训练。例如。这些功能是什么?
  • 页面偶尔会轻微旋转,因此如果分类对旋转和(在较小程度上)缩放不敏感,那就太好了。
  • 我想要一个跨平台的解决方案,最好是使用纯 Python 或使用通用库。
  • 我考虑过使用 OpenCV,但这似乎是一个“重量级”解决方案。

编辑:

  • “A”页和“B”页的不同之处在于,“B”页上的表格具有相同的一般结构,包括存在条形码。 “A”页是自由文本。

最佳答案

我将分 3 个部分回答,因为您的问题显然很大,如果页面集合不超过 1000,我强烈建议使用廉价劳动力的手动方法。

第 1 部分:特征提取——在对象检测领域,你有大量的特征可供选择。由于您的要求之一是旋转不变性,我会推荐 SIFT/SURF 类的功能。您可能还会发现 Harris 角等。决定使用哪些特征可能需要专业知识,如果您有计算能力,我建议您创建一个不错的特征熔炉,并将其传递给基于重要性估计器的分类器训练。

第 2 部分:分类器选择 - 我是 Random Forest 的 super 粉丝分类器。这个概念非常容易掌握,并且高度灵活且非参数化。调整需要的参数很少,您也可以在监督训练期间以参数选择模式运行它。

第 3 部分:实现 - Python 本质上是一种胶水语言。用于图像处理的纯 python 实现永远不会非常快。我建议结合使用 OpenCV 进行特征检测,并使用 R 进行统计工作和分类器。

该解决方案似乎设计过度,但机器学习从来都不是一项简单的任务,即使页面之间的区别仅仅是它们是一本书的左页和右页。

关于python - python中的图像分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3906682/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com