gpt4 book ai didi

java - 如何使用 PDFBox API 从 PDF 获取文本方向

转载 作者:搜寻专家 更新时间:2023-11-01 03:18:55 27 4
gpt4 key购买 nike

我有 PDF 文件,其中包含四种不同方向的文本,例如水平对齐、垂直对齐和反向对齐。在使用 PDFBox API 从 pdf 读取文本时,我得到了水平对齐文本的良好输出,但在其他情况下却没有。例如,如果“斜体”字是水平对齐的,则输出为“斜体”。如果它是垂直对齐的,那么输出将跨行拆分为“它 一个
李 c”(这里的“it”、“a”、“li”、“c”在不同的行)。我想知道即使对于垂直和反向对齐的文本,是否有任何方法可以获得良好的输出。

最佳答案

您可以覆盖 PDFTextStripper 的 processTextPosition() 方法并编写逻辑来获取每个字符的方向、x 和 y 值。通过根据字符的方向对字符进行分组,您可以单独裁剪它们。

关于java - 如何使用 PDFBox API 从 PDF 获取文本方向,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37518184/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com