gpt4 book ai didi

linux 从图像中的表中获取文本

转载 作者:太空宇宙 更新时间:2023-11-04 11:04:28 25 4
gpt4 key购买 nike

我有数百张以下格式的图片。我想从 header 检测器 2 结果下方的表中提取键值文本。即关键同位素,值(value) Tc99m,关键峰值,值(value) 140.3 kEV。显然,我更愿意在 bash 脚本中执行此操作,而不是手动检查每个图像。我听说过 imagemagick 和 ocr 等工具,它们似乎可以满足我的需求。但是,我对这两种工具都没有经验。我应该如何处理这个问题,是否可以解决?

我是否最好裁剪包含表格的大致区域,在运行 ocr 之前进行一些对比度调整以清除文本?

enter image description here

最佳答案

我有非常相似的情况。我没有识别 kEV,而是必须匹配工资报告中的员工识别号。我的方法如下:将图像裁剪到带有数字的区域,对裁剪后的图像进行 OCR,最后读取文本文件。我使用的工具:用于一般批处理作业和页面迭代的 PHP 脚本,用于将 PDF 转换为 PNG 的 imagemagick,用于裁剪图像并将其保存为 PNG 的 PHP GD 库(请注意 imagemagick 具有用于裁剪的命令行支持),最后是 Tesseract 到 OCR文本。我发现如果图像是黑白和计算机生成的,那么 Tesseract 是相当可靠的,当然前提是它具有高分辨率。在我的例子中,单个数字大约是 11x18 像素。

显然,您应该知道如何使用 IM 裁剪图像 (http://www.imagemagick.org/Usage/crop/) 以及如何对其进行自动调平(http://fmwconcepts.com/imagemagick/autolevel/index.php 还没有尝试过)。下面是初学者的裁剪示例。但是我相信你需要更大的分辨率。还要避免将表格边缘传递给 OCR。

convert yrhxY.png -crop 44x12+146+204 -negate output.png

最后回答你的问题:是的 - 先裁剪,然后 OCR。

关于linux 从图像中的表中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25804980/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com