gpt4 book ai didi

database - OCR解决方案/通过400万张纸进行搜索,每天增加10,000张

转载 作者:太空狗 更新时间:2023-10-30 01:42:31 24 4
gpt4 key购买 nike

我在一家医学实验室公司工作。他们需要能够搜索所有客户数据。到目前为止,他们在几年内存储了大约 400 万张纸,而且他们每天都在增加 10,000 页。对于 6 个月前的数据,他们每天需要访问大约 10-20 次。他们正在决定是花 80k 买一个扫描系统,让秘书扫描房子里的所有东西,还是聘请铁山这样的公司来做这件事。 Iron mountain 将收取每页约 8 美分的费用,这对我们拥有的纸张数量加起来约为 30 万美元,再加上每天 10,000 张的费用还要多出一大笔钱。

我在想也许我可以建立一个数据库并在内部进行所有扫描。

  1. 那些用于扫描支票和邮件的系统是什么,它们能很好地阅读非常乱的手写体?
  2. 有没有人有过使用一堆 OCR 可搜索文档构建数据库的经验?我应该使用什么工具来解决我的问题?
  3. 您能推荐最好的 OCR 库吗?
  4. 作为一名程序员,您会如何解决这个问题?

仅供引用,下面的答案都不能很好地回答我的问题

最佳答案

在医疗办公室工作过,负责数据录入,OCR 几乎肯定行不通。我们的表格有特殊的文本框,每个字母都有一个单独的框,即使如此,软件也只有大约 75% 的时间是正确的。有一些形式允许自由书写,但结果普遍是乱码。

我建议走元数据路线;扫描所有内容,而不是尝试对每个表单进行 OCR,只需将其存储为图像并添加元数据标签。

我的想法是:OCR在这个案例中的目标是让所有的表格都能从计算机上读取,从而使数据检索变得更简单。但是,您在这里并不真的需要 OCR 来执行此操作,您需要做的就是找到某种方法,让人们能够非常快速地找到表格,并从表格中获取正确的信息。因此,即使您将每个表单存储为图像,添加正确的元数据标签也可以让您在需要时检索所需的任何内容,并且运行搜索的人可以直接从存储的表单中读取它,或者打印出来并以这种方式阅读。

编辑:执行此计划的一种相当简单的方法是使用简单的数据库方案,其中每个图像都存储为一个字段。根据您的需要,每一行都可以包含如下内容:

  • 图片名称
  • 患者编号
  • 访问日期
  • ...

基本上,考虑您想要搜索给定文件的所有方式,并确保将其作为字段包含在内。您是否通过患者 ID 查找患者?包括那个。访问日期?相同的。如果您不熟悉围绕搜索需求设计数据库,我建议您聘请具有数据库设计技能的开发人员;您最终会得到一个非常强大但快速的数据库模式,其中包含您想要的一切,并且功能强大到足以满足您的索引需求。 (请记住,其中大部分将高度特定于您的应用程序。您需要根据您的情况对其进行优化,并确保在一开始就尽可能地进行设置。)

关于database - OCR解决方案/通过400万张纸进行搜索,每天增加10,000张,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3269140/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com