gpt4 book ai didi

java - 有人有处理 Nuance 的 OmniPage SDK 的 XML 格式的经验吗?

转载 作者:太空宇宙 更新时间:2023-11-04 02:16:35 26 4
gpt4 key购买 nike

我正在使用 Nuance OmniPage SDK 对图像和 PDF 执行 OCR,在我的一个案例中,我必须解析 OCR 在识别文件时生成的 XML 文件,但数字并没有真正意义。以下是 SDK 的示例输出:

<page ocr-vers="OmniPageCSDK16" app-vers="OfficeDrop">
<description backColor="ffffff">
<source
file="C:\Users\workspace\jobs\src\test\resources\test-docs\0003.tiff"
dpix="300" dpiy="300" sizex="2480" sizey="3509" />
<theoreticalPage size="Custom" marginLeft="0"
marginTop="0" marginRight="0" marginBottom="0" width="2480" height="3509" />
</description>
<zones>
<textZone l="1814" t="1517" r="4694" b="1733" fillingMethod="omnifont"
recognitionModule="omnifontPlus2w" chrFilter="all">
<ln l="1814" t="1517" r="4690" b="1728" baseLine="1680"
underlined="none" fontSize="1100">
<wd l="1814" t="1517" r="2539" b="1728">Sample</wd>
<space width="67" />
<wd l="2606" t="1541" r="2995" b="1680">text</wd>
<space width="72" />
<wd l="3067" t="1570" r="3302" b="1680">on</wd>
<space width="72" />
<wd l="3374" t="1517" r="3734" b="1680">line</wd>
<space width="91" />
<wd l="3826" t="1522" r="3912" b="1680">1</wd>
<space width="82" />
<wd l="3994" t="1570" r="4459" b="1728">page</wd>
<space width="91" />
<wd l="4550" t="1522" r="4690" b="1680">1.</wd>
<space />
</ln>
</textZone>
</zones>
</page>

页面大小定义很容易弄清楚,((2480 * 72)/300) 将为最终 PDF 页面提供正确的页面宽度(以点为单位)(然后是高度),但其他值没有任何意义。

1100 的 font-size 是多少?还有这些字坐标?他们怎么会有页面上不存在的坐标?

有没有人知道这种 XML 格式是什么,或者可以指点我做文档?我搜索了 SDK 附带的所有手册,但仍然找不到与这些值代表什么或它们使用的单位相关的任何内容(我确定它不是像素或点,我猜)。

感谢任何帮助。我正在使用 java 绑定(bind)来访问 OmniPage C SDK。

最佳答案

Omni Page 字坐标通常以缇为单位输出,您需要进行相应的点或像​​素转换。例如,如果我想计算 200 dpi 图像的测量值,我需要这样做(值 * 200)/1440 像素。要交叉检查,只需在画笔中打开图像并查看每个单词的指针位置。

关于java - 有人有处理 Nuance 的 OmniPage SDK 的 XML 格式的经验吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6867579/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com