gpt4 book ai didi

ocr - 无法使用 OCR 引擎 tesseract 理解提取文档中的坐标

转载 作者:行者123 更新时间:2023-12-02 06:42:17 25 4
gpt4 key购买 nike

我从tesseract中提取了一个图像文档,并且提取成功。但我无法理解提取文档的坐标。

问题描述:-

它显示坐标,但让我知道这些坐标代表像素还是其他东西。它们有四个,例如 title="bbox 10 13 43 46" ,那么 10、13 43 和 46 分别是什么。它们代表什么位置

解压后的完整代码

   <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>
</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
<meta name='ocr-system' content='tesseract'/>
</head>
<body>
<div class='ocr_page' id='page_1' title='image "D:\ABC.tif"; bbox 0 0 464 101'>
<div class='ocr_carea' id='block_1_1' title="bbox 10 13 330 55">
<p 1class='ocr_par'>
<span class='ocr_line' id='line_1_1' title="bbox 10 13 330 55">
<span class='ocr_word' id='word_1_1' title="bbox 10 13 43 46">
<span class='ocrx_word' id='xword_1_1' title="x_wconf -1"><strong>hi</strong></span>
</span>
<span class='ocr_word' id='word_1_2' title="bbox 148 13 268 47">
<span class='ocrx_word' id='xword_1_2' title="x_wconf -1"><strong>whats</strong></span>
</span>
<span class='ocr_word' id='word_1_3' title="bbox 283 22 330 55">
<span class='ocrx_word' id='xword_1_3' title="x_wconf -1"><strong>up</strong></span>
</span>
</span>
</p>
</div>
</div>
</body>
</html>

最佳答案

对于那些仍然想知道坐标系如何工作的人来说,我终于找到了它,就像这样

10 13 43 46startx、starty、endx、endy

如果你想找到单词的宽度和高度

宽度=endx-startx,高度=endy-starty

用 ' ' 分割字符串,然后消除 bbox 就可以了..

关于ocr - 无法使用 OCR 引擎 tesseract 理解提取文档中的坐标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18550356/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com