gpt4 book ai didi

java - PDFBox 2 栏问题 如何检查珠子

转载 作者:行者123 更新时间:2023-12-01 09:25:51 25 4
gpt4 key购买 nike

我有http://laws-lois.justice.gc.ca/PDF/A-8.8.pdf我正在尝试使用有 2 列的 PDFBox 进行解析。我希望解析文本,以便将列分开,但是当我通过 PDFBox 运行它时,它不会分隔两列,而是将两列中的行连接在一起。

我已阅读 https://issues.apache.org/jira/browse/PDFBOX-448这表示某些 PDF 没有可以使用的文章/珠子,因此解析总是错误的。我尝试过使用 stripper.setShouldSeparateByBeads(true)

如何检查它是否有珠子?除了有关 PDFBox 列解析的问题之外,我还没有找到任何有关此概念的阅读 Material 。

最佳答案

您可以使用 PDPage.getThreadBeads() 检查珠子是否位于页面中。如果没有线程珠,这将返回一个空列表。

剧透警告:您的文档没有任何剧透。

有关如何使用它们的示例可以在源代码下载的 DrawPrintTextLocations.java 示例中找到。带珠子的 PDF 文件示例可在文件 PDFBOX-3110-003422-p1-beads.pdfPDFBOX-3110-poems-beads.pdf 中找到,也可以在源代码下载。

额外提示:查看 ExtractTextByArea.java 示例,这应该可以帮助您提取 PDF 文件。

关于java - PDFBox 2 栏问题 如何检查珠子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39835105/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com