gpt4 book ai didi

java - 使用 OCR 的 PDF 文本提取方法

转载 作者:搜寻专家 更新时间:2023-10-31 08:30:55 26 4
gpt4 key购买 nike

<分区>

有没有人尝试过使用 OCR 库和 Java 从 PDF 中提取文本?您发现什么是最可靠的文本提取库。我见过的大多数方法(tesseract、GOCR)都是 C 库,需要编写一些 JNI 代码。

我熟悉 pdfbox,它现在是 0.8.x 版的 Apache 孵化器项目,但它的文本提取并不总是准确的。我正在寻找一种更可靠的替代方法。

我还没有尝试过 Asprise JavaPDF,在尝试的过程中,但想了解更多关于 OCR 方法的信息(如果可能的话)。

如有任何帮助,我们将不胜感激。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com