gpt4 book ai didi

java - 无法使用 TIKA 提取文本

转载 作者:太空宇宙 更新时间:2023-11-04 12:14:47 32 4
gpt4 key购买 nike

我们有一个 pdf,它是手写文档,并使用扫描仪转换为 pdf。我正在使用 TIKA 1.13,但无法从此类文件中提取文本。解析后我只得到“\n\n”作为文本。这是我的代码:

Parser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
ParseContext parseContext = new ParseContext();
parseContext.set(PDFParserConfig.class, pdfConfig);
parseContext.set(Parser.class, parser);
Metadata metadata = new Metadata();
parser.parse(stream, handler, metadata, parseContext);

有人可以帮忙吗?

最佳答案

PDF 有两种基本风格。在我所说的纯 pdf 中,文本嵌入在标记语言中,其功能与 html 标记、文字标记等相同。可以从这种类型的 pdf 中恢复文本。另一种类型是将 Word 文档另存为 pdf 时得到的类型。将原始文档的每一页转换为图像,然后将图像嵌入到支持分页的 pdf 框架中。这次的提取将为您提供图像集合。这些可能适合也可能不适合 OCR 处理。

关于java - 无法使用 TIKA 提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39530212/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com