gpt4 book ai didi

google-cloud-vision - 可以使用 Google Cloud Vision TEXT_DETECTION 保留文本结构吗?

转载 作者:行者123 更新时间:2023-12-03 23:10:03 29 4
gpt4 key购买 nike

Google Cloud Vision API(测试版)的第 1 版允许通过 TEXT_DETECTION 请求进行光学字符识别。虽然识别质量很好,但返回的字符没有任何原始布局的暗示。因此,结构化文本(例如,表格、收据、列数据)有时会被错误地排序。

是否可以使用 Google Cloud Vision API 保留文档结构? tesseract 和 hOCR 也被问到了类似的问题。例如,[1] 和 [2]。目前文档 [3] 中没有关于 TEXT_DETECTION 选项的信息。

[1] How to preserve document structure in tesseract
[2] Tesseract - ambiguity in space and tab
[3] https://cloud.google.com/vision/

最佳答案

识别文本结构是一个比识别文本本身更抽象的概念:字母、单词、句子。如果您的文件元数据中已经有此文本结构信息,您可以执行以下操作:

  • 在子部分中分割/划分您的输入图像。
  • 执行您的 text_detection 请求。
  • 根据您的元数据正确重新排序您的文本。

  • 我不是 Cloud Vision text_detection API 的专家,但它写的是 text_detection 而不是 language_detection 或 text_structure_detection,所以它提供了一些关于检测级别/层的小线索。

    也许这是他们计划在 future 添加或在文档中描述的功能。

    关于google-cloud-vision - 可以使用 Google Cloud Vision TEXT_DETECTION 保留文本结构吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35519689/

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com