gpt4 book ai didi

python - 使用 Python 将 hOCR 解析为 JSON

转载 作者:行者123 更新时间:2023-11-29 12:52:09 30 4
gpt4 key购买 nike

我正在使用 tesseract-ocr 并获得 hOCR 格式的输出。我需要将这个 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。

由于我可能需要单独来自此 hOCR 的每条信息(其中的 80%),哪种方法才是正确的方法?它应该存储为 XML 数据类型还是解析为 JSON 并存储?在 JSON 的情况下,如何使用 Python 将此 hOCR 解析为 JSON。也感谢其他相关建议。

最佳答案

hOCR 似乎是 XML 的一种方言,因此您应该能够使用 stdlib 中的 xml.etree 模块将 hOCR 代码解析为 Python 可导航树。然后导航该树以组成对象或嵌套字典,最后使用标准库的 json 模块将该字典转换为 JSON。

关于python - 使用 Python 将 hOCR 解析为 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51421283/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com