gpt4 book ai didi

swift - 谷歌视觉文本检测响应逐行

转载 作者:搜寻专家 更新时间:2023-10-30 22:13:37 25 4
gpt4 key购买 nike

我正在使用 Google 视觉 API 对收据图像执行文本识别。我得到了一些不错的返回结果,但返回的格式非常不可靠。如果文本之间有很大的间隙,读数将打印下面的行而不是旁边的行。

例如,使用以下 Recipt Image我收到以下回复:

    4x Löwenbräu Original a 3,00 12,00 1
8x Weissbier dunkel a 3,30 26,401
3x Hefe-Weissbier a 3,30 9,90 1
1x Saft 0,25
1x Grosses Wasser
1x Vegetarische Varia
1x Gyros
1x Baby Kalamari Gefu
2x Gyros Folie
1x Schafskäse Ofen
1x Bifteki Metaxa
1x Schweinefilet Meta
1x St ifado
1x Tee
2,50 1
2,40 1
9,90 1
8,90 1
12,90
a 9,9019,80 1
6,90 1
11,90 1
13,90 1
14,90 1
2,10 1

开始的时候和预期的一样好,但是当尝试将价格与文本等联系起来时变得相当无用。理想的响应如下:

    4x Löwenbräu Original a 3,00 12,00 1
8x Weissbier dunkel a 3,30 26,401
3x Hefe-Weissbier a 3,30 9,90 1
1x Saft 0,25 2,50 1
1x Grosses Wasser 2,40 1
1x Vegetarische Varia 9,90 1
1x Gyros 8,90 1
1x Baby Kalamari Gefu 12,90 1
2x Gyros Folie a 9,9019,80 1
1x Schafskäse Ofen 6,90 1
1x Bifteki Metaxa 11,90 1
1x Schweinefilet Meta 13,90 1
1x St ifado 14,90 1
1x Tee 2,10 1

或接近于此。

是否有格式请求可以添加到 api 以获得不同的响应?我在使用 tessereact 时取得了成功,您可以在其中更改输出格式以实现此结果,并且想知道视觉 api 是否有类似的东西。

我知道 api 返回可以使用的字母坐标,但我希望不必深入到那种深度。

最佳答案

这可能是一个迟到的答案,但添加它以供将来引用。对于相距很远的文本,DOCUMENT_TEXT_DETECTION 也不会提供正确的行分割。

以下代码根据字符多边形坐标进行简单的线段分割。

https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision

关于swift - 谷歌视觉文本检测响应逐行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46548182/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com