java - 如何使用 iText 解析未标记的 pdf 文件-6ren

java - 如何使用 iText 解析未标记的 pdf 文件

转载作者：行者123 更新时间：2023-12-03 02:37:41

26

4

我想用 iText 解析这个文件 ( http://www.bbm.ca/_documents/top_30_tv_programs_english/2011/nat01032011.pdf )。问题是它没有标记，所以我无法获取 XML 文件。我决定从中提取文本，我认为例如第一行将如下所示:

1\specialCharWJC:PLAYOFFS CANADA\specialCharTSN+\specialCharM.W....\specialChar19:30\specialChar21:57\specialChar5133

我为第一行提取的文本是

1 WJC:PLAYOFFS CANADA TSN+ M.W.... 19:30 21:57 5133

我使用以下方法提取文本:

PdfReader reader = new PdfReader(filename);
String str = PdfTextExtractor.getTextFromPage(reader, 1);

PDF 查看器如何知道加拿大位于第二列而不是第三列。

我当前的解决方案是使用http://www.idrsolutions.com/online-pdf-to-html5-converter/将pdf文件转换为html5谁可以确定每列的文本。

感谢您的回复

最佳答案

我编写了 iText 文本提取器。 iText 中有两种提取策略 - 一种是简单的(更多概念证明)，只是在文本命中时转储文本。另一个(LocationTextExtractionStrategy)更加精致，它如何使用@Jongware建议的位置和字体信息构建字符串(它还考虑了所有坐标转换)。如果您像现在这样调用 getTextFromPage() ，则后者是默认策略。

第 20 行文本显示两次的原因是一些 PDF 制作者这样做是为了模拟粗体字形(他们稍微移动字符并重新渲染)。所以这确实不是一个错误，但肯定可能是一个改进的机会。如果我们检测到彼此位于某个缇区域内的相同内容 block ，我们可能可以做一些事情。我们还没有这样做的原因是，这可能非常棘手，因为您可能有一个 block 是整个单词，而另一组 block - 每个字母一个。我们有能力进行子 block 分析(事实上，这是在解析器接口(interface)中的某个地方公开的 - 无法立即记忆起来 - 如果您需要它，请告诉我，我会追踪它) - 但这会发生性能损失相当大，所以我不愿意这样做。

无论如何，我解决这个特定挑战的方法是设置物理区域并将区域过滤器传递到 LocationTextExtractionStrategy#getResultantText() 调用中。

如果您确实需要根据文本的水平位置插入制表符(或某些列标记)，这是完全可行的 - 查看 LocationTextExtractionStrategy 源代码中调用 isChunkAtWordBoundary() 方法的位置并添加您自己的处理程序，用于在空格之外插入特殊字符。还可以进行某种上下文分析(即，注意有一堆 block 恰好共享相同的 X 位置和方向，并将该 X 位置指定为制表位)。

如果您提出了一个很好且通用的想法(即不特定于这个解析任务)，请告诉我，我会看看如何将其合并到 iText 中。

关于java - 如何使用 iText 解析未标记的 pdf 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21355363/

26

4

0

文章推荐： php - php array_column 函数的逆函数？

文章推荐： encryption - BitLocker 如何影响性能？

文章推荐： assembly - .code/.data 和 code/data 段有什么区别？

文章推荐： php - 如何将对象数组转换为键值对数组？

itext - iText 包含哪些默认字体？
iText 文档指出它只包含特定的字体子集，但从未说明它们是什么。有没有人知道 iText 中默认包含哪些字体？ (我在网上搜索过，在任何地方都找不到这个字体列表!) 最佳答案它可能指的是PDF S
itext - IText 7 表格中的列宽问题
我使用固定列宽创建了下表，如下所示， Table headerTable = new Table(new float[]{5,5,5}); headerTable.setWidthPercent(
itext - 缩放图像以使用 iText 填充多个页面
我正在尝试使用 iText 缩放图像(在新的 PDF 文档上)以使其填充页面宽度而不拉伸(stretch)，这样它可能需要几页。我找到了很多解决方案，但它们都非常复杂，而且我真的不喜欢那样编码。到目
itext - Flying Saucer/iText
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件，如果特定条件发生，报告应该移动到 pdf 的下一页，并在 PDF 上添加数据等等。问候帕万最佳答案您必须使用 c
itext - Flying Saucer/iText
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件，如果特定条件发生，报告应该移动到 pdf 的下一页，并在 PDF 上添加数据等等。问候帕万最佳答案您必须使用 c
itext - 使用 iText 获取行位置
如何使用 iText 找到文档中的行的位置？假设我有一个 PDF 文档中的表格，并且想要阅读其中的内容；我想找到细胞的确切位置。为了做到这一点，我想我可能会找到线条的交点。最佳答案我认为您使用
itext - 使具有带有 itext 的滚动条的表的可编辑单元格只读
请找到下面的代码。 public class MakingFieldReadOnly implements PdfPCellEvent { /** The resulting PDF. */
itext - 在 iText 7 中编写文档时如何获得垂直光标位置？
在 iText 5 中有一个名为 getVerticalPosition() 的方法，它给出了下一个写入对象在页面上的位置。作为回答这个问题 How to find out the current c
itext - 在 TextField IText 中调整文本
抱歉，如果有类似我的帖子，但我是这个论坛的新手，我还没有找到它。我有动态调整 TextField 大小取决于文本大小的问题。我填写现有的 PDF - 在 AcroForm 中填写字段: form.s
itext - 要知道它是否是 ITEXT pdf 中的新页面
我正在使用 itext 生成 pdf。因此，当页面内容超出时，它会自动创建一个新页面。我想知道它是否创建了一个新页面。如果是，我想在页面顶部添加一些图像。 List paylist =new List
itext - 删除表格 iText java 的左右边距
我的有问题固定表格左侧和右侧的边距。我想删除该边距并使用没有边距或填充的所有工作表。我该怎么办？我刚刚试过这个，但对我不起作用: cell.setPaddingLeft(0); cell.se
itext - 如何使用 Itext 对齐段落(对齐)？
我有 2 行，我想对齐(证明)它们。我有这个代码: Paragraph p=new Paragraph(ANC,fontFootData); p.setLeading(1, 1);
itext - 使用外部服务和 iText 签署 PDF
我有这样的场景。我有一个生成 PDF 的应用程序，需要对其进行签名。我们没有用于签署文档的证书，因为它们位于 HSM 中，而我们使用证书的唯一方法是使用 Web 服务。此网络服务提供两个选项，发
itext - 如何实现 itext 7 表中列之间的空间？
我需要实现一个看起来像图片中的表格，列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
itext - 如何实现 itext 7 表中列之间的空间？
我需要实现一个看起来像图片中的表格，列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
itext - 使用 iText 将复选框添加到 PDF 文档
我需要使用 Java 的 iText 库创建一个 PDF 文档。我还需要包括一些复选框，这些复选框根据某些类变量的值打开/关闭。我找到了一些关于交互式表单的示例，但我不需要这种复杂程度:只需将一些复选
itext - 如何使用 iText PdfStamper 将内容添加到 PDF
我正在开发一个系统，我必须在其中将一些图像添加到现有的 PDF 文档中。这适用于 iText 5.1.3，但由于某种原因，在包含扫描图像的 PDF 中，它不会添加任何图像。这是 PDF Docum
itext - 使用 iText 提取 PDF 文本
我们正在研究信息提取，我们想使用iText。我们正在探索 iText。根据我们查阅过的文献，iText 是最好的工具。是否可以从 iText 中每行的 pdf 中提取文本？我在与我的相关的 stac
itext - 使用 iText 填充现有的 pdf 文本字段
我已经创建了一个带有一些文本字段的 pdf 文档。我可以使用 Adobe 阅读器填充这些文本字段并将这些值保存在该文件中。我的问题是，我可以使用 iText 以编程方式执行此操作吗？如果可能，请
itext - 如何摆脱 PdfPCell、iText 5 中的顶部填充
我正在使用 iText 5 表创建标签(如 Avery 标签)。标签元素的定位需要一些非常严格的公差，以便适合标签上的所有内容。我的问题是标签上有多个区域为 PdfPCells。我需要将文本放入这些区

首页

博学

6Ren·AI

商城

java - 如何使用 iText 解析未标记的 pdf 文件