java - 如何在 PDFTextStripperByArea 中定义区域？-6ren

java - 如何在 PDFTextStripperByArea 中定义区域？

转载作者：行者123 更新时间：2023-12-01 13:03:31

25

4

我正在使用 PDFBox 从 PDF 文件中提取文本。我面临的一个问题是:PDFBox 将主要内容与我想忽略的 PDF 页脚/页眉部分混合在一起。

我被告知以下代码会有帮助:

Rectangle rec = new Rectangle();
# init rec...
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.addRegion("cropbox", rec); 
stripper.setSortByPosition(true);

有人能告诉我 stripper.setSortByPosition(true) 到底是什么意思吗？我阅读了文档，但仍然很困惑:

当我使用上面的代码从 PDF 文件中提取文本时，出现以下错误:

Exception in thread "main" java.lang.IllegalArgumentException:
Comparison method violates its general contract!
at java.util.TimSort.mergeLo(TimSort.java:747)
at java.util.TimSort.mergeAt(TimSort.java:483)
at java.util.TimSort.mergeCollapse(TimSort.java:408)
at java.util.TimSort.sort(TimSort.java:214)
at java.util.TimSort.sort(TimSort.java:173)
at java.util.Arrays.sort(Arrays.java:659)
at java.util.Collections.sort(Collections.java:217)
at org.apache.pdfbox.util.PDFTextStripper.writePage(PDFTextStripper.java:565)
at org.apache.pdfbox.util.PDFTextStripperByArea.writePage(PDFTextStripperByArea.java:190)
at org.apache.pdfbox.util.PDFTextStripper.processPage(PDFTextStripper.java:457)
at org.apache.pdfbox.util.PDFTextStripperByArea.extractRegions(PDFTextStripperByArea.java:153)

有人可以帮我解决这个问题吗？

PS:供您引用，这里是setSortByPosition的文档:

PDF 文件中文本标记的顺序可能与屏幕上显示的顺序不同。例如，PDF 编写者可能会按字体写出所有文本，因此所有粗体或较大的文本，然后进行第二遍并写出普通文本。

默认不按位置排序。

PDF 编写者可以选择以不同的顺序编写每个字符。默认情况下，由于性能原因，PDFBox 在处理文本标记之前不会对其进行排序。

PPS:@Tilman Hausherr:这是一个已知问题:-(

请参阅:issues.apache.org/jira/browse/PDFBOX-1512

更新:避免这些异常的一种可能方法[1]是:

System.setProperty("java.util.Arrays.useLegacyMergeSort", "true");

[1] https://issues.apache.org/jira/browse/PDFBOX-1512?focusedCommentId=13937402&page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel#comment-13937402

最佳答案

我查看了源代码，发现他们的 TextPositionComparator (Comparator 用于对文本位置进行排序)似乎违反了契约(Contract)。 (TimSort [java 7+] 在这种情况下可能会抛出异常；PDFBox 似乎仍然与 java 4 兼容，并且他们计划更新到 java 6 版本 2.0，因此它们可能不是最新的...)

您最好将该错误告知开发人员 ( PDFBox )。但是您可以下载源代码并自行更改比较器。我很确定错误位于 TextPositionComparator 的第 63 行(修订版 1575836) .

它们允许 y 值存在一定的公差。您可以提出违反 Comparator 接口(interface)契约的一部分的 TextPositions:

实现者还必须确保关系是可传递的:((compare(x, y)>0) && (compare(y, z)>0)) 意味着compare(x, z)>0。

要显示可能违反条件:选择 TextPosition.getYDirAdj() (posYBottom) 为 0、0.05 和 0.11，并确保行中的条件64、65 是错误的，您可以通过正确选择 x 位置来选择 3 个比较结果中的 1 个。

关于java - 如何在 PDFTextStripperByArea 中定义区域？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23377520/

25

4

0

文章推荐： java - ConcurrentHashmap size() 方法是否计算空键？

文章推荐： ruby-on-rails-3 - s3 上的 mp3 片段

文章推荐： Drupal View 2 : Output using custom markup

文章推荐： java - twosorts 只给我一个问题

linux - compiler.h 文件中有 __cond_lock(x,c) 定义，但没有 __cond_unlock(x,c) 定义？
在complier.h中有一个宏定义如下: # define __cond_lock(x,c) ((c) ? ({ __acquire(x); 1; }) : 0) 但是这里我有一个问题，就是哪里
CURLOPT_ 定义
curl_easy_setopt 的选项在哪里？定义？我试图寻找 CURLOPT_VERBOSE 和其他一些整数值，但这些似乎没有在 curl.h 中明确定义。最佳答案第 792 行: #ifde
dllimport静态数据成员的C++定义
我确实有一个如下所示的类(class): //.h file class __declspec(dllimport) MyClass { public: //stuff pri
关系代数与逻辑优化规则(一):定义
作者: zhuwenzhuang, 2024.05.08. 阅读前假设读者熟悉数据库使用,了解 SQL 的语法和关系算子的大概含义, 能通过 EXPLAIN 命令查看数据库执行计划. 0 前言
Swagger header 定义
我似乎无法找到是否可以声明一个 header 对象以便在响应 header 中重用它，有一些示例定义了响应模式的对象，但它不会转置为响应 header 。我只设法制作了一个可重用的响应对象，如下所示:
CSS 选择器 * + * 定义？
css 选择器 * + * 实际上是什么意思？当您执行检查元素时，您可以在谷歌浏览器的控制台中看到它。在我看来，这似乎是对 "Every second child"应用一种风格，但仍然想确定。谁能帮我
Haskell primPutChar 定义
我试图弄清楚基本的IO Haskell 函数是定义好的，所以我使用了this reference我到了putChar函数定义: putChar :: Char -> IO () putChar
.net - TargetFrameworkAttribute 定义
我得到了一个自动生成的文件，该文件定义了程序集属性，我正在尝试理解内容。 [assembly: global::System.Runtime.Versioning.TargetFrameworkAtt
gnuplot，检查函数是否存在(定义)
This文档演示了如何检查变量是否先前已在 gnuplot 脚本中定义。文档中的示例: a = 10 if (exists("a")) print "a is defined" if (!exist
scheme - 定义、让和设置之间的区别!
好吧，这是一个相当基本的问题:我正在关注 SICP 视频，我对 define、let 和之间的区别有点困惑设置!. 1) 根据 Sussman 在视频中的说法，define 只允许为变量附加一个值一
枚举值的 XSD 定义
我一直在尝试定义一个包含只能具有以下三个值之一的字段的 XSD: 绿色红色蓝色本质上，我想在架构级别定义严格的枚举。我的第一次尝试似乎是错误的，我不确定修复它的“正确”方法。
class - “POCO”定义
有人可以定义“POCO”到底是什么意思吗？我越来越频繁地遇到这个术语，我想知道它是否仅与普通类有关还是意味着更多？最佳答案 “普通旧式 C# 对象” 只是一个普通的类，没有描述基础结构问题或域对象不
django CharField 定义
在我经常看到的一些django模型中 myfield = models.CharField(_('myfield')) class_name = models.CharField(_('Type'),
c - boolean 定义
每当 BOOL 数据类型不容易预定义时，我都会使用以下定义进行 boolean 运算， typedef unsigned char BOOL; (由于内存使用)。我意识到出于性能原因，使用本地总线宽
Java: vector 定义
l_ABC_BEANVector = utilRemote.fnGetVector("ABC_COVBEANVector"); 编码的含义是什么？任何帮助，我真的很感激。谢谢最佳答案唯一可以肯定地
JAVACC token 定义
我正在使用 javacc 开发一个项目，我遇到问题并需要一些帮助，我的文件中有这样的内容: STRING COPYRIGHT (C) 2003, 2004 SYNOPSYS, INC.; 我为单词 S
Haskell primPutChar 定义
我想弄清楚基本的 IO定义了 Haskell 函数，所以我使用了 this reference然后我到了 putChar函数定义: putChar :: Char -> IO () putCha
python - 定义@property
我在具体类中使用 @property 定义 getter 时遇到问题。这是Python代码: from abc import ABCMeta, abstractproperty class abstr
C 定义/全局变量依赖于其他东西
我正在为大学用 C 语言编写一个小游戏，但我陷入了困境。我(在头文件中)有这个结构: typedef struct{ game_element field[MAX_ROWS][MAX_COLU
c - 如何从flex文件中读取规则(定义)？
我一直在 .l 文件中创建标记定义。由于数据集数量庞大，它变得有点乏味。有没有办法读取文件中的所有单词，例如包含所有名词的 noun.txt 并给所有名词一个标记。基本上，我想自动化这部分: %%

首页

博学

6Ren·AI

商城

java - 如何在 PDFTextStripperByArea 中定义区域？