gpt4 book ai didi

tesseract - 从 tika-server 获取 hocr 输出

转载 作者:行者123 更新时间:2023-12-04 10:46:56 26 4
gpt4 key购买 nike

我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。

我对 hOCR 感兴趣输出,但只能成功获得纯文本格式的输出。

关注 wikicode ,我正在尝试使用 X-Tika-OCR... 配置 Tesseract HTTP header 。在这种情况下,我使用的是 X-Tika-OCRoutputType: hocr HTTP header ,但我得到了没有 HOCR 标签的纯文本输出或 html 输出。

我尝试了 /tika/rmeta端点。
curl我使用的命令:

curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"

我也尝试设置 Accept标题到 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个报错。

我在用:
  • Apache Tika 1.22
  • Tesseract 4.1.0-3.1.x86_64
  • 红帽 7
  • 最佳答案

    通过检查TikaResourceTest的集成测试代码,我意识到缺少一个 HTTP header 。正确的命令应该包括 X-Tika-PDFOcrStrategy: ocr_only HTTP header 。查看更多 ocr & pdf parser docs

    因此,命令将是:

    curl -v -X PUT \
    --data-binary @file.pdf \
    -H "Content-Type: application/pdf" \
    -H "X-Tika-PDFOcrStrategy: ocr_only" \
    -H "X-Tika-OCROutputType: hocr" \
    "http://tika-server:8081/tika"

    关于tesseract - 从 tika-server 获取 hocr 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59662119/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com