gpt4 book ai didi

delphi - 从单词位置检测文本列

转载 作者:行者123 更新时间:2023-12-03 15:27:45 25 4
gpt4 key购买 nike

我有一个 tiff 文件及其上的文本,该文件已在早期阶段进行 OCR 处理。这些单词具有作为信息的确切位置(左上、右下)。我现在需要读取用户绘制的矩形内的文本。

普通段落没有问题,但我不知道应该如何处理文本列。如果有两个相邻的段落,简单地将行作为一行将导致结果无法使用。

是否有算法可以帮助我将单词按正确的顺序排列?我猜我必须检查单词之间的空格来检测识别列的模式。我想避免直接处理图像,尽管它应该是可能的(但没有 OCR)。

我也不确定列表/表格的影响,例如在订单和账单中。面向行的方法在这里可能会更好。

我正在使用 Delphi 进行开发,但其他语言的适应性算法也将受到赞赏。

编辑:我明天会尝试发布示例数据,但基本上我有一个单词数组,它们在图像上各自的坐标(例如,我可以轻松地在它们周围画一个矩形)。

最佳答案

假设您的原始文本分为两列,如下所示:

Aaaa bb ccc ddddd     mmmm nn oooo pp
eee fff ggggg hh qqq rrrrrrrrr
i jjjj kkk lll sss tttt uu.

根据您的描述,听起来您的 OCR 已经为您提供了各个单词及其边界矩形。如果正交扫描原始页面,则给定行上的所有单词应具有相同(或非常接近)的 y 值。如果它们不完全相同,您可以在垂直位置上使用典型框高度的一部分进行整数除法。这应该对 y 值进行聚类。您可以对 x 坐标进行类似的处理,以确保列边缘的单词也具有相同的 x 值。

为了检测单独的列,我会尝试制作所有单词的所有“左”值的直方图(如果文本从右到左运行,则为右边缘)。您应该在每列的开头看到一个峰值。

您可以通过确保在每一行上,候选列开始之前的最后一个框的右坐标之间存在间隙来排除任何误报。间隙应该至少与任何单词的最小宽度一样大。

然后,您可以通过检查单词的左右坐标所属的水平范围将单词划分为列组。在我们的示例中,来自 Aaaa 的单词通过lll最终会出现在第一个分区和 mmmm 中的单词通过uu.最终会出现在第二个分区中。

在每个分区中,您可以通过按 y 坐标排序来在线分区。最后,对于每一行,您都根据 x 坐标进行排序。 (是否按升序或降序排序取决于您的坐标系和文本流动的方向。)

相同的基本思想可以应用于表格和文本列,但您可能需要一些调整来处理右对齐单元格等问题。

关于delphi - 从单词位置检测文本列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7652643/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com