gpt4 book ai didi

algorithm - 复杂文档的 OCR 扫描

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:26:35 48 4
gpt4 key购买 nike

我需要创建一个工具,使用高质量相机扫描文档中的特定文本 block 并对其进行 OCR。每个文档都匹配相同的模板,其中包含一些填充数据的表格。我需要从每个扫描文档的一个特定单元格中提取数据。

我需要考虑图像的旋转和微小变形。整个工作流程应如下所示:

  1. 向相机“显示”文档。软件制作文档的图片。
  2. 软件会考虑一些较小的旋转和其他变换(由于文档被拿在手中,因此可能会发生较小的剪切、缩放、旋转)。
  3. 软件识别正在显示的正确模板文档并从特定单元格中提取图像。
  4. 然后对图像进行 OCR。

基本上,我不需要最终的解决方案,而是关于从哪里开始寻找的一些指导。我知道如何对纯文本进行 OCRing,我不知道如何实现步骤 2 和 3。

提前致谢。

最佳答案

基本上,纯文本的 OCR,特别是当涉及到非常好的扫描图像时,是一个很好解决的任务。您所描述的是更进一步-图像预处理和具有数据捕获的现场级识别。据我所知,开源引擎(甚至被认为是其中最好的tesseract)不提供这样的功能。

与此同时,专有的 OCR 引擎多年来一直在解决您描述的任务(花费了大量人力资源)并且进展顺利。所以如果你打算做一个商业软件,我建议你看看http://ocrsdk.com ,它是一个带有 web API 的云 OCR SDK。它允许您上传图像并发回 OCRed 数据。它已经内置了所有可能的图像预处理算法,因此您不必担心第 2 步。至于第 3 步 - 您可能需要引用 this section它的文档。我是开发这项服务前端的团队的一员,所以我可以多说一点。希望对您有所帮助!

关于algorithm - 复杂文档的 OCR 扫描,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10062840/

48 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com