gpt4 book ai didi

image-processing - 针对不同格式的文档查找某一特定信息的最佳 OCR 方法

转载 作者:行者123 更新时间:2023-11-30 08:45:22 27 4
gpt4 key购买 nike

不幸的是,由于 secret 数据,我无法给出更具体的解释。

问题

所以我有一些文档,它们通常包含相同的信息,但具有不同的格式。在大多数情况下,我要查找的值位于文档中的关键字附近。 OCR 本身由 Google Cloud Vision API 负责,但处理不同格式的最佳方法是什么?

我的想法

...是训练一个分类器,检测我正在处理的格式,然后选择找到目标值的适当方法,我事先手动实现了。这既不方便也不可扩展。所以我正在寻找一些我告诉的算法,例如目标值在哪里,它是什么样的等等。

解决这个问题的最佳机器学习方法是什么,或者您有什么想法?

作为数据类型的示例:假设我有来自 20 个不同超市的收据,我希望找到总成本,其中问题是每个公司的收据看起来都不一样。

最佳答案

最近我不得不使用tesseract来处理类似的情况。 ,除了 OCR 工具本身,我没有使用任何 ML 方法,因为就像你说的,它不可扩展。

我认为分类器不会有返回,除非你有大量不同的布局,然后你必须决定如何为每个布局提取数据......

这在很大程度上取决于您需要提取的数据类型,但使用您的示例,如果您必须从所有不同的布局中提取总成本,您可以从每张收据中提取尽可能多的数字,并且根据一些因素对它们进行评分,例如:

  1. 如果是成本(美元或其他货币符号)
  2. 与“Total、Final、Sum 等”等常见关键字的距离
  3. 如果这是该收据的最高值(value)
  4. 您可能会想到的其他因素,这完全取决于您需要提取的数据

然后,您可以使用每张收据得分最高的单独成本来计算最终的总成本

关于image-processing - 针对不同格式的文档查找某一特定信息的最佳 OCR 方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56660862/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com