gpt4 book ai didi

java - 使用 Apache PDFBox 解析 PDF 文件

转载 作者:太空宇宙 更新时间:2023-11-04 07:43:03 27 4
gpt4 key购买 nike

我正在尝试使用 PDFBox 修改 PDF 文档的内容。我用过this example事实上,但观察到我的 PDF 文件中的文本在字符级别被分割(或更糟)。例如,一个字符串,EM?它是什么: 被分割成:

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

(通过在上述代码中打印 cosString 进行检查时)。据我所知,文件中只有拉丁字符,编码也是ISO-8859-1。有什么想法吗?

问候,

萨利尔

最佳答案

这很可能是 PDF 格式问题。这就是您的特定 PDF 存储文本的方式,以获得正确的字母间距或 kerning 。不同的 PDF 之间的差异很大,具体取决于它们的创建方式。

通常,我建议简单地将所有不同的标记合并到一个大的内容字符串中。

关于java - 使用 Apache PDFBox 解析 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15742303/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com