gpt4 book ai didi

c# - iText 或 iTextSharp 基本文本编辑

转载 作者:太空狗 更新时间:2023-10-30 00:31:53 29 4
gpt4 key购买 nike

我可以通过多种方式从 PDF 页面中提取文本:

String pageText = PdfTextExtractor.GetTextFromPage(reader, i);

这可用于获取页面上的任何文本。

或者:

byte[] contentBytes = iTextSharp.text.pdf.parser.ContentByteUtils.GetContentBytesForPage(reader, i);

可能性是无限的。

现在我想删除/编辑某个词,例如明确的词语、敏感信息(将黑框放在上面显然是一个坏主意 :) 或 PDF 中的任何内容(简单且只有文本)。我可以使用上面的方法很好地找到这个词。我可以数出它出现的次数等等...

我不关心布局,也不关心 PDF 并不是真的要以这种方式进行操作这一事实。

我只是想知道是否有一种机制可以让我以这种方式处理我的 PDF 的原始内容。你可以说我在寻找“SetContentBytesForPage()”……

最佳答案

如果您想更改页面的内容,仅更改页面的内容流是不够的。页面可能包含对包含您要删除的内容的 Form XObject 的引用。

次要问题由图像组成。例如:假设您的文档包含经过 OCR 处理的扫描文档。在这种情况下,仅删除(矢量)文本是不够的,您还需要操作图像中的(像素)文本。

假设您的次要问题不存在,您将需要双重方法:

  1. 从页面中获取文本形式的内容,以检测哪些页面中有您要删除的名称或单词。
  2. 递归循环所有内容流以找到该文本并重写没有该文本的内容流。

从你的问题来看,我假设你已经解决了问题 1。解决问题 2 并不是那么简单。在我的书的第 15 章中,我有一个示例,其中提取文本返回“Hello World”,但是当您查看内容流时,您会看到:

BT
/F1 12 Tf
88.66 367 Td
(ld) Tj
-22 0 Td
(Wor) Tj
-15.33 0 Td
(llo) Tj
-15.33 0 Td
(He) Tj
ET

在您可以从此流片段中删除“Hello World”之前,您需要一些试探法,以便您的程序识别此语法中的文本。

找到文本后,您需要重写流。如需灵感,您可以查看 OCG remover functionality在 itext-xtra 包中。

长话短说:如果您的 PDF 相对简单,即:可以在不同的内容流(页面内容和 Form XObject 内容)中轻松检测到文本,那么只需在一些字符串操作后重写这些流即可.

我已经为您制作了一个名为 ReplaceStream 的简单示例将 PDF 中的 "Hello World" 替换为 "HELLO WORLD"

public void manipulatePdf(String src, String dest) throws IOException, DocumentException {
PdfReader reader = new PdfReader(src);
PdfDictionary dict = reader.getPageN(1);
PdfObject object = dict.getDirectObject(PdfName.CONTENTS);
if (object instanceof PRStream) {
PRStream stream = (PRStream)object;
byte[] data = PdfReader.getStreamBytes(stream);
stream.setData(new String(data).replace("Hello World", "HELLO WORLD").getBytes());
}
PdfStamper stamper = new PdfStamper(reader, new FileOutputStream(dest));
stamper.close();
reader.close();
}

一些注意事项:

  • 我检查 object 是否是一个流。它也可以是流的数组。在这种情况下,您需要遍历该数组。
  • 我不检查是否为页面定义了表单 XObject。
  • 我假设可以在 PDF 语法中轻松检测到 Hello World
  • ...

在现实生活中,PDF 从来都不是那么简单,项目的复杂性会随着文档中使用的每一个特殊功能而急剧增加。

关于c# - iText 或 iTextSharp 基本文本编辑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21617218/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com