- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我可以通过多种方式从 PDF 页面中提取文本:
String pageText = PdfTextExtractor.GetTextFromPage(reader, i);
这可用于获取页面上的任何文本。
或者:
byte[] contentBytes = iTextSharp.text.pdf.parser.ContentByteUtils.GetContentBytesForPage(reader, i);
可能性是无限的。
现在我想删除/编辑某个词,例如明确的词语、敏感信息(将黑框放在上面显然是一个坏主意 :) 或 PDF 中的任何内容(简单且只有文本)。我可以使用上面的方法很好地找到这个词。我可以数出它出现的次数等等...
我不关心布局,也不关心 PDF 并不是真的要以这种方式进行操作这一事实。
我只是想知道是否有一种机制可以让我以这种方式处理我的 PDF 的原始内容。你可以说我在寻找“SetContentBytesForPage()”……
最佳答案
如果您想更改页面的内容,仅更改页面的内容流是不够的。页面可能包含对包含您要删除的内容的 Form XObject 的引用。
次要问题由图像组成。例如:假设您的文档包含经过 OCR 处理的扫描文档。在这种情况下,仅删除(矢量)文本是不够的,您还需要操作图像中的(像素)文本。
假设您的次要问题不存在,您将需要双重方法:
从你的问题来看,我假设你已经解决了问题 1。解决问题 2 并不是那么简单。在我的书的第 15 章中,我有一个示例,其中提取文本返回“Hello World”,但是当您查看内容流时,您会看到:
BT
/F1 12 Tf
88.66 367 Td
(ld) Tj
-22 0 Td
(Wor) Tj
-15.33 0 Td
(llo) Tj
-15.33 0 Td
(He) Tj
ET
在您可以从此流片段中删除“Hello World”之前,您需要一些试探法,以便您的程序识别此语法中的文本。
找到文本后,您需要重写流。如需灵感,您可以查看 OCG remover functionality在 itext-xtra 包中。
长话短说:如果您的 PDF 相对简单,即:可以在不同的内容流(页面内容和 Form XObject 内容)中轻松检测到文本,那么只需在一些字符串操作后重写这些流即可.
我已经为您制作了一个名为 ReplaceStream
的简单示例将 PDF 中的 "Hello World"
替换为 "HELLO WORLD"
。
public void manipulatePdf(String src, String dest) throws IOException, DocumentException {
PdfReader reader = new PdfReader(src);
PdfDictionary dict = reader.getPageN(1);
PdfObject object = dict.getDirectObject(PdfName.CONTENTS);
if (object instanceof PRStream) {
PRStream stream = (PRStream)object;
byte[] data = PdfReader.getStreamBytes(stream);
stream.setData(new String(data).replace("Hello World", "HELLO WORLD").getBytes());
}
PdfStamper stamper = new PdfStamper(reader, new FileOutputStream(dest));
stamper.close();
reader.close();
}
一些注意事项:
object
是否是一个流。它也可以是流的数组。在这种情况下,您需要遍历该数组。Hello World
。在现实生活中,PDF 从来都不是那么简单,项目的复杂性会随着文档中使用的每一个特殊功能而急剧增加。
关于c# - iText 或 iTextSharp 基本文本编辑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21617218/
如何将十进制数字转换为mixed radix表示法? 我猜想给定每个基数数组的输入和十进制数,它应该输出每列值的数组。 最佳答案 伪代码: bases = [24, 60, 60] input = 8
我有 Table-A,其中有“x”行。 (对于这个例子有 8 行) 我通过使用游标创建了列数为“x”的Table-C。 (使其动态化;如果将更多行添加到 Table-A,则会在 Table-C 中创建
我有一个关于对象的(很可能是简单而愚蠢的)问题。我创建了实例“Person”的对象“jon”。当我打电话时 console.log(jon.name) 控制台会给我输出“jon”。到目前为止,一切都很
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: javascript function vs. ( function() { … } ()); 抱歉,如果这太基础了
我正在尝试用 Java 重新创建射弹轨迹,但是,我遇到了一些问题。我看过很多解释公式之类的视频,但他们的方程中有一个目标,而我没有。我的意思是,他们有一个范围来计算子弹的下落,但我试图弄清楚子弹最终会
(希望如此)来自一个完整的 Rust 初学者的一个简单问题。我的循环有什么问题? num 计算结果为“69”的速度相当快,但是一旦 num 设置为“69”,循环就永远不会退出。我肯定遗漏了一些明显的东
我在 id="name"的元素上应用“.length”,但它计数为 29 而不是 14。我想知道我的错误在哪里?如果有人可以让我知道,那就太好了。谢谢! var name=document.getEl
我知道这很简单,但由于某种原因我无法让它工作。我正在尝试在 Java 中创建自定义颜色,但它似乎不起作用。 import java.awt.Color; Color deepGreen = new C
我有一个大文件,其中每一行都包含一个子字符串,例如 ABC123。如果我执行 grep ABC file.txt 或 grep ABC1 file.txt 我按预期返回这些行,但如果我执行 grep
我想将以下实体映射转换为 Priority 对象。在 getter 上,当我将“Short”更改为“Priority”并遵循 this.priority 时,它会提示 'basic' 属性类型不应该是
我正在开发一个相当基本的函数,我发现很难弄清楚为什么我会得到我的输出。 def mystery(n): print(n) if n < 4: my
我正在尝试对 WordPress 安装的新闻部分实现同位素过滤。我是 JavaScript/jQuery 的新手,正在尝试随时随地学习。我首先使用 Filters section of the Iso
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
我在另一个实体类中引用一个实体并收到此错误。下面是示例代码。我在 persistence.xml 中也有这些类。 是什么导致了这个问题?我正在使用 Spring 数据 JPA 和 Hibernate。
我正在解析 HTML 并重新格式化图像以使其更好地适应。由于某种原因,当我有多个图像需要解析时,我会超出范围,而且我一生都无法弄清楚为什么。 当 imgArray.count >1 时,我将使用带有递
我是 SQL 新手,正在尝试创建一个基本的子查询。我需要找出经理的平均年龄和实习生的平均年龄之间的差异。 标题为一栏 - 经理或实习生年龄是一列,全部在同一个表中。 我会使用两个子查询来做类似的事情:
我习惯了 csh,所以不得不使用 bash 有点烦人。这段代码有什么问题? if[$time > 0300] && [$time 和 300 && time < 900 )) then mod
我建立了这个页面:http://excelwrestling.com/poola.php即将到来的双重锦标赛。我的大部分数据都是从我的 mySQL 数据库中提取的,现在只有一些示例数据。 我希望链接选
是否有任何原因导致以下内容不起作用: for (i=0;i < someArray.length;i++) { if (someArray[i].indexOf("something") !=
我现在正在学习 Javascript,有一个问题一直困扰着我! 因此,我在这里所需要做的就是在此输入框中键入颜色,单击按钮并将标题更改为键入的颜色(仅当键入的颜色位于变量中指定的数组中时)。 我的代码
我是一名优秀的程序员,十分优秀!