java - 从PDF过滤出超过特定字体大小的所有文本-6ren

java - 从PDF过滤出超过特定字体大小的所有文本

转载作者：行者123 更新时间：2023-12-02 01:16:25

如标题所示，我想从某个字体大小以上的PDF过滤掉所有文本。当前，我正在使用PDFBox库，但可以使用其他任何Java免费库。

我的方法是使用PDFStreamParser遍历令牌。当我通过一个大小大于我的阈值的Tf运算符时，不要添加下一个看到的Tj / TJ。但是，对我来说很清楚，这种相对简单的方法将不起作用，因为文本可能会被当前的转换矩阵缩放。

有没有我可能会采用的更好的方法，或者使我的方法行得通而不复杂的方法？

最佳答案

你的方法

当我通过一个大小大于我的阈值的Tf运算符时，不要添加下一个看到的Tj / TJ。

太简单了。

一方面，当您评论自己时，

文本可以通过当前的变换矩阵进行缩放。

（实际上不仅是通过转换矩阵，而且还通过文本矩阵！）

因此，您必须跟踪这些矩阵。

另一方面，Tf不仅为下一个看到的文本绘制指令设置基本字体大小，还设置它直到字体大小被其他指令显式更改为止。

此外，文本字体大小和当前的转换矩阵是图形状态的一部分。因此，它们受保存状态和恢复状态指令的约束。

因此，要针对当前状态编辑内容流，您必须跟踪许多信息。幸运的是，PDFBox包含的类可以在这里进行繁重的工作，基于PDFStreamEngine的类层次结构使您可以专注于自己的任务。为了使尽可能多的信息可用于编辑，PDFGraphicsStreamEngine类似乎是一个很好的选择。

通用内容流编辑器类

因此，让我们从PdfContentStreamEditor派生PDFGraphicsStreamEngine并添加一些代码以生成替换内容流。

public class PdfContentStreamEditor extends PDFGraphicsStreamEngine {
    public PdfContentStreamEditor(PDDocument document, PDPage page) {
        super(page);
        this.document = document;
    }

    /**
     * <p>
     * This method retrieves the next operation before its registered
     * listener is called. The default does nothing.
     * </p>
     * <p>
     * Override this method to retrieve state information from before the
     * operation execution.
     * </p> 
     */
    protected void nextOperation(Operator operator, List<COSBase> operands) {

    }

    /**
     * <p>
     * This method writes content stream operations to the target canvas. The default
     * implementation writes them as they come, so it essentially generates identical
     * copies of the original instructions {@link #processOperator(Operator, List)}
     * forwards to it.
     * </p>
     * <p>
     * Override this method to achieve some fancy editing effect.
     * </p> 
     */
    protected void write(ContentStreamWriter contentStreamWriter, Operator operator, List<COSBase> operands) throws IOException {
        contentStreamWriter.writeTokens(operands);
        contentStreamWriter.writeToken(operator);
    }

    // stub implementation of PDFGraphicsStreamEngine abstract methods
    @Override
    public void appendRectangle(Point2D p0, Point2D p1, Point2D p2, Point2D p3) throws IOException { }

    @Override
    public void drawImage(PDImage pdImage) throws IOException { }

    @Override
    public void clip(int windingRule) throws IOException { }

    @Override
    public void moveTo(float x, float y) throws IOException { }

    @Override
    public void lineTo(float x, float y) throws IOException { }

    @Override
    public void curveTo(float x1, float y1, float x2, float y2, float x3, float y3) throws IOException { }

    @Override
    public Point2D getCurrentPoint() throws IOException { return null; }

    @Override
    public void closePath() throws IOException { }

    @Override
    public void endPath() throws IOException { }

    @Override
    public void strokePath() throws IOException { }

    @Override
    public void fillPath(int windingRule) throws IOException { }

    @Override
    public void fillAndStrokePath(int windingRule) throws IOException { }

    @Override
    public void shadingFill(COSName shadingName) throws IOException { }

    // PDFStreamEngine overrides to allow editing
    @Override
    public void processPage(PDPage page) throws IOException {
        PDStream stream = new PDStream(document);
        replacement = new ContentStreamWriter(replacementStream = stream.createOutputStream(COSName.FLATE_DECODE));
        super.processPage(page);
        replacementStream.close();
        page.setContents(stream);
        replacement = null;
        replacementStream = null;
    }

    @Override
    public void showForm(PDFormXObject form) throws IOException {
        // DON'T descend into XObjects
        // super.showForm(form);
    }

    @Override
    protected void processOperator(Operator operator, List<COSBase> operands) throws IOException {
        nextOperation(operator, operands);
        super.processOperator(operator, operands);
        write(replacement, operator, operands);
    }

    final PDDocument document;
    OutputStream replacementStream = null;
    ContentStreamWriter replacement = null;
}

（ PdfContentStreamEditor类）

此代码将覆盖 processPage以创建新的页面内容流，并最终用其替换旧的内容流。并且它覆盖 processOperator以提供已处理的指令进行编辑。

为了进行编辑，只需在此处覆盖 write即可。现有的实现只是简单地编写指令，而您可以更改要编写的指令。覆盖 nextOperation允许您在应用当前指令之前先查看图形状态。

按原样应用编辑器，

PDDocument document = PDDocument.load(SOURCE);
for (PDPage page : document.getDocumentCatalog().getPages()) {
    PdfContentStreamEditor identity = new PdfContentStreamEditor(document, page);
    identity.processPage(page);
}
document.save(RESULT);

（ EditPageContent测试 testIdentityInput）

因此，将创建具有等效内容流的结果PDF。

为您的用例定制内容流编辑器

你想要

从PDF中过滤出所有超过特定字体大小的文本。

因此，我们必须检查 write当前指令是否为文本绘制指令，如果是，则必须检查当前有效字体大小，即由文本矩阵和当前转换矩阵转换的基本字体大小。如果有效字体太大，我们必须删除指令。

可以按以下步骤完成：

PDDocument document = PDDocument.load(SOURCE);
for (PDPage page : document.getDocumentCatalog().getPages()) {
    PdfContentStreamEditor identity = new PdfContentStreamEditor(document, page) {
        @Override
        protected void write(ContentStreamWriter contentStreamWriter, Operator operator, List<COSBase> operands) throws IOException {
            String operatorString = operator.getName();

            if (TEXT_SHOWING_OPERATORS.contains(operatorString))
            {
                float fs = getGraphicsState().getTextState().getFontSize();
                Matrix matrix = getTextMatrix().multiply(getGraphicsState().getCurrentTransformationMatrix());
                Point2D.Float transformedFsVector = matrix.transformPoint(0, fs);
                Point2D.Float transformedOrigin = matrix.transformPoint(0, 0);
                double transformedFs = transformedFsVector.distance(transformedOrigin);
                if (transformedFs > 100)
                    return;
            }

            super.write(contentStreamWriter, operator, operands);
        }

        final List<String> TEXT_SHOWING_OPERATORS = Arrays.asList("Tj", "'", "\"", "TJ");
    };
    identity.processPage(page);
}
document.save(RESULT);

（ EditPageContent测试 testRemoveBigTextDocument）

严格说来，完全放弃所讨论的指令可能是不够的；取而代之的是，必须像替换放置的文本绘制指令那样，用替换文本矩阵的指令替换它。否则，以下未删除的文本可能会被移动。通常，这确实可以正常工作，因为为以下不同文本重新设置了文本矩阵。因此，让我们在这里保持简单。

约束和说明

此 PdfContentStreamEditor仅编辑页面内容流。从那里开始，可以使用XObjects和Patterns，这些对象当前未被编辑器编辑。但是，在编辑页面内容流之后，应该很容易地递归地迭代XObjects和Patterns并以类似的方式对其进行编辑。

此 PdfContentStreamEditor本质上是 this answer中用于iText 5（.Net / Java）的 PdfContentStreamEditor和 this answer中用于iText 7的 PdfCanvasEditor的端口。使用这些编辑器类的示例可能会提示如何将 PdfContentStreamEditor用于PDFBox。

先前在 HelloSignManipulator中的 this answer类中使用了类似（但不太通用）的方法。

修正错误

在 this question上下文中，发现了 PdfContentStreamEditor中的一个错误，该错误导致该示例PDF中的某些文本行被移动了。

背景：某些PDF指令是通过其他指令定义的，例如指定tx ty TD与-ty TL tx ty Td具有相同的效果。为了简化工作，相应的PDFBox OperatorProcessor实现通过将等效指令反馈回流引擎来工作。

如上所述，在这种情况下实现的 PdfContentStreamEditor会同时获取替换指令和原始指令的信号，并将它们全部写回到结果流中。因此，这些指令的效果加倍。例如。如果是TD指令，则文本插入点将前移两行，而不是前一行。

因此，我们必须忽略更换指示。为此，将上面的方法 processOperator替换为

@Override
protected void processOperator(Operator operator, List<COSBase> operands) throws IOException {
    if (inOperator) {
        super.processOperator(operator, operands);
    } else {
        inOperator = true;
        nextOperation(operator, operands);
        super.processOperator(operator, operands);
        write(replacement, operator, operands);
        inOperator = false;
    }
}

boolean inOperator = false;

关于java - 从PDF过滤出超过特定字体大小的所有文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58475104/

文章推荐： java - 如何在java中使用带有空格的枚举

文章推荐： java - 如何通过 hashmap 进行搜索并打印低于 X 的值？

文章推荐： java - 将 JTextArea 中的文本存储为数组列表

objective-c - 这可以缩短吗？字体=字体？字体 : defaultFont;
你知道更好的写法吗 font = font ? font : defaultFont; 我所知道的是: if(!font) { font = defaultFont } 我知道这是一个小工具问
java - 即使声明了类(字体)和方法(字体)也找不到符号？
我正在编写代码，但无法编译，即使类(字体)已通过 import javafx.scene.text.*; 导入我知道这个方法font包含在字体中。这是我的代码: package helloworld
html - 格式化按钮(字体，字体(相对)大小，对齐方式，内边距)
我已经构建了一个按钮，但在格式设置(即平方、内联文本等)方面遇到了问题我目前的问题是:正文分为2部分- 上线正常-下一行是较大的字体大小我的动画 react 正确，但文本应该在箭头的顶线和底线内。
JavaScript 字体
好的，所以我想在网页上使用固定系统作为字体。我可以使用 Cufon，但我希望人们能够在鼠标悬停时选择文本并复制它。有人有什么吗？最佳答案我使用 fontsquirrel 的 @font-face
iPhone SDK 字体
我找到了 iOS 4.2 可用字体列表(链接 here )，但该列表与早期版本的 SDK 略有不同(链接 here )。我可以很好地更改代码中的字体，但如果我使用 iOS 4.2 列表中可用的字体，
iphone - UITableView 字体
我正在尝试更改 TableView 标题上的字体颜色，其中显示“加利福尼亚/纽约”。我该怎么做？在黑色背景上，文本需要是白色的，但无法弄清楚这一点。谢谢最佳答案如果您尝试更改标题颜色，可以使用
java - 字体 - 如何定位字符串的左上角？
假设我想使用 java.awt.Graphics.drawString(String str, int x, int y)在某些特定坐标处绘制字符串的方法，例如 (300, 300)。然而drawSt
puppeteer - 如何将Puppeteer指向本地镜像/字体？
我想使用Puppeteer从HTML字符串生成图像。现在我有这样的事情: const html = _.template(` Hello {{ test }}!
日语 Unicode 字体
我正在创建一个游戏。我有一些带有文本的用户界面。最近我们想添加日语版本，但我遇到字体问题。我使用 stb_freetype 来光栅化字体，并且我支持 Unicode，所以这应该不是问题。但大多数字体似
clojure - 一个文本区域有不同的颜色/字体
我可以在一个文本区域中使用不同的前景色吗？不同的字体？我想添加类似“hh:mm:ss 昵称:消息”的内容，时间为灰色，名称 - 蓝色，消息 - 黑色。最佳答案我在评论中犯了一个错误:你想要的是
java - 字体，返回默认大小
每次我更改字体时，它都会返回到默认大小，即 12，即使我之前使用“ Jade 野”菜单更改它，它每次也只会返回到 12，我的猜测是这样我使用deriveFont()更改大小，但现在没有其他方法可以更改
Java JTextArea 字体
我的电脑上安装了一种名为“BMW1”的自定义字体。我试图循环遍历此字体中的所有条目并将它们显示在 JTextArea 中。我有以下代码: JTextArea displayArea = new JT
CSS、字体、松鼠生成器
我尝试通过 Squirrel 理解生成的代码，这里是输出: @font-face { font-family: 'someFont'; src: url('someFont.eot')
css - 根据用户选择动态更改网页中的字体/字体
我知道有多种方法可以通过 JS/DHTML 动态更改网页的字体属性，或者用 Flash 呈现的字体(使用 sIFR 或 Cufon)替换文本。但是，我找不到任何根据用户选择动态更改网页上使用的字体的好
具有非标准样式的 CSS 字体
使用具有非标准样式名称(例如“Inline”或“Outline”)而不是标准样式(例如“Bold”和“Italic”)的字体系列，如何使用 css 选择字体的不同样式？设置 font-family
html - 字体、背景和页脚有问题
我对 html/css 有点陌生，我正在制作我的第一个网站，但我只是想不通一些东西。首先，我在 dreaweaver 中工作...在 dreaweaver 中，一切看起来都不错，但是当我预览时，我缺
c++ - 在Allegro5中绘制部分图像/字体
有没有办法在 Allegro5 中只绘制(或显示)图像/字体的一部分？例如，如果我有一个正方形 A 和一个图像 B，我只想绘制/显示 B 中与 A(在本例中为 C)重叠的部分，我该怎么做？插图:
html 字体/文本颜色在打印页面预览和打印时不会改变
所以，我有一个正在生成的报告 html 文件，其中有需要白色文本/字体的黑框。在通用 html 显示中一切都很好，但是当我尝试打印页面时，ctrl + p 或自定义打印功能，文本/字体保持为标准颜色，
打印或导出时无法正确呈现 Matlab 字体
我正在尝试制作一个非常适合 LaTeX 文档的 matlab 图形。一个已知的问题是 XTickLabel 和 YTickLabels 不使用 LaTeX 解释器渲染，导致图形不好看。 (注意:我意识
c# - 如何定义跨多个表单使用的默认颜色/字体？
我需要在一个公共(public)位置使用默认颜色和字体，以便在桌面应用程序的多个窗口窗体中使用它。这方面的最佳做法是什么？我正在考虑使用应用程序设置在那里定义它们，但我想确保这是推荐的方法或者是否

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 从PDF过滤出超过特定字体大小的所有文本