- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想用 iText 解析这个文件 ( http://www.bbm.ca/_documents/top_30_tv_programs_english/2011/nat01032011.pdf )。问题是它没有标记,所以我无法获取 XML 文件。我决定从中提取文本,我认为例如第一行将如下所示:
1\specialCharWJC:PLAYOFFS CANADA\specialCharTSN+\specialCharM.W....\specialChar19:30\specialChar21:57\specialChar5133
我为第一行提取的文本是
1 WJC:PLAYOFFS CANADA TSN+ M.W.... 19:30 21:57 5133
我使用以下方法提取文本:
PdfReader reader = new PdfReader(filename);
String str = PdfTextExtractor.getTextFromPage(reader, 1);
PDF 查看器如何知道加拿大位于第二列而不是第三列。
我当前的解决方案是使用http://www.idrsolutions.com/online-pdf-to-html5-converter/将pdf文件转换为html5谁可以确定每列的文本。
感谢您的回复
最佳答案
我编写了 iText 文本提取器。 iText 中有两种提取策略 - 一种是简单的(更多概念证明),只是在文本命中时转储文本。另一个(LocationTextExtractionStrategy)更加精致,它如何使用@Jongware建议的位置和字体信息构建字符串(它还考虑了所有坐标转换)。如果您像现在这样调用 getTextFromPage() ,则后者是默认策略。
第 20 行文本显示两次的原因是一些 PDF 制作者这样做是为了模拟粗体字形(他们稍微移动字符并重新渲染)。所以这确实不是一个错误,但肯定可能是一个改进的机会。如果我们检测到彼此位于某个缇区域内的相同内容 block ,我们可能可以做一些事情。我们还没有这样做的原因是,这可能非常棘手,因为您可能有一个 block 是整个单词,而另一组 block - 每个字母一个。我们有能力进行子 block 分析(事实上,这是在解析器接口(interface)中的某个地方公开的 - 无法立即记忆起来 - 如果您需要它,请告诉我,我会追踪它) - 但这会发生性能损失相当大,所以我不愿意这样做。
无论如何,我解决这个特定挑战的方法是设置物理区域并将区域过滤器传递到 LocationTextExtractionStrategy#getResultantText() 调用中。
如果您确实需要根据文本的水平位置插入制表符(或某些列标记),这是完全可行的 - 查看 LocationTextExtractionStrategy 源代码中调用 isChunkAtWordBoundary() 方法的位置并添加您自己的处理程序,用于在空格之外插入特殊字符。还可以进行某种上下文分析(即,注意有一堆 block 恰好共享相同的 X 位置和方向,并将该 X 位置指定为制表位)。
如果您提出了一个很好且通用的想法(即不特定于这个解析任务),请告诉我,我会看看如何将其合并到 iText 中。
关于java - 如何使用 iText 解析未标记的 pdf 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21355363/
iText 文档指出它只包含特定的字体子集,但从未说明它们是什么。有没有人知道 iText 中默认包含哪些字体? (我在网上搜索过,在任何地方都找不到这个字体列表!) 最佳答案 它可能指的是PDF S
我使用固定列宽创建了下表,如下所示, Table headerTable = new Table(new float[]{5,5,5}); headerTable.setWidthPercent(
我正在尝试使用 iText 缩放图像(在新的 PDF 文档上)以使其填充页面宽度而不拉伸(stretch),这样它可能需要几页。 我找到了很多解决方案,但它们都非常复杂,而且我真的不喜欢那样编码。到目
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件,如果特定条件发生,报告应该移动到 pdf 的下一页,并在 PDF 上添加数据等等。 问候帕万 最佳答案 您必须使用 c
我正在使用 Flying Saucer/iText 生成报告。现在报告有一个条件,如果特定条件发生,报告应该移动到 pdf 的下一页,并在 PDF 上添加数据等等。 问候帕万 最佳答案 您必须使用 c
如何使用 iText 找到文档中的行的位置? 假设我有一个 PDF 文档中的表格,并且想要阅读其中的内容;我想找到细胞的确切位置。为了做到这一点,我想我可能会找到线条的交点。 最佳答案 我认为您使用
请找到下面的代码。 public class MakingFieldReadOnly implements PdfPCellEvent { /** The resulting PDF. */
在 iText 5 中有一个名为 getVerticalPosition() 的方法,它给出了下一个写入对象在页面上的位置。作为回答这个问题 How to find out the current c
抱歉,如果有类似我的帖子,但我是这个论坛的新手,我还没有找到它。 我有动态调整 TextField 大小取决于文本大小的问题。我填写现有的 PDF - 在 AcroForm 中填写字段: form.s
我正在使用 itext 生成 pdf。因此,当页面内容超出时,它会自动创建一个新页面。我想知道它是否创建了一个新页面。如果是,我想在页面顶部添加一些图像。 List paylist =new List
我的 有问题固定 表格左侧和右侧的边距。 我想删除该边距并使用没有边距或填充的所有工作表。我该怎么办? 我刚刚试过这个,但对我不起作用: cell.setPaddingLeft(0); cell.se
我有 2 行,我想对齐(证明)它们。 我有这个代码: Paragraph p=new Paragraph(ANC,fontFootData); p.setLeading(1, 1);
我有这样的场景。 我有一个生成 PDF 的应用程序,需要对其进行签名。 我们没有用于签署文档的证书,因为它们位于 HSM 中,而我们使用证书的唯一方法是使用 Web 服务。 此网络服务提供两个选项,发
我需要实现一个看起来像图片中的表格,列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
我需要实现一个看起来像图片中的表格,列之间有空间。我试过: cell.setPaddingLeft(10); cell.setMarginLeft(10); extractio
我需要使用 Java 的 iText 库创建一个 PDF 文档。我还需要包括一些复选框,这些复选框根据某些类变量的值打开/关闭。我找到了一些关于交互式表单的示例,但我不需要这种复杂程度:只需将一些复选
我正在开发一个系统,我必须在其中将一些图像添加到现有的 PDF 文档中。 这适用于 iText 5.1.3,但由于某种原因,在包含扫描图像的 PDF 中,它不会添加任何图像。 这是 PDF Docum
我们正在研究信息提取,我们想使用iText。 我们正在探索 iText。根据我们查阅过的文献,iText 是最好的工具。是否可以从 iText 中每行的 pdf 中提取文本?我在与我的相关的 stac
我已经创建了一个带有一些文本字段的 pdf 文档。我可以使用 Adobe 阅读器填充这些文本字段并将这些值保存在该文件中。 我的问题是,我可以使用 iText 以编程方式执行此操作吗?如果可能,请
我正在使用 iText 5 表创建标签(如 Avery 标签)。标签元素的定位需要一些非常严格的公差,以便适合标签上的所有内容。我的问题是标签上有多个区域为 PdfPCells。我需要将文本放入这些区
我是一名优秀的程序员,十分优秀!