pdf - 如何使用PDFBox在pdf中查找表格边框线？-6ren

pdf - 如何使用PDFBox在pdf中查找表格边框线？

转载作者：行者123 更新时间：2023-12-05 00:19:57

我正在尝试在 pdf 中找到表格边框线。我用过 PrintTextLocations用于制作单词的 pdfBox 类。现在我正在寻找形成表格的不同线条的坐标。我尝试使用 org.apache.pdfbox.pdfviewer.PageDrawer ，但我找不到包含这些行的任何字符/图形。我尝试了两种方法:

第一的:

Graphics g = null;
Dimension d = new Dimension();
d.setSize(700, 700);
PageDrawer pageDrawer = new PageDrawer();
pageDrawer.drawPage(g, myPage, d);

它给了我空指针异常。其次，我试图覆盖 processStream功能，但我无法中风。请帮帮我。我可以使用任何其他库来提供表格中线条的坐标。还有一个简单的问题，pdfbox 中的那些表格边框线是什么类型的对象？这些是图形还是这些字符？

这是我尝试解析的示例 pdf 的链接:
http://stats.bls.gov/news.release/pdf/empsit.pdf
并尝试获取第 8 页上的表格行。

编辑 :我遇到了另一个问题，在解析这个 pdf 的第 1 页时，我无法得到任何行作为 pathIterator在 printPath()函数是空的，尽管 strokePath()为每一行调用函数。如何使用此pdf？

最佳答案

在 1.8.* 版本中，PDFBox 解析功能以一种不太通用的方式实现，特别是 OperatorProcessor实现与特定的解析器类紧密相关，例如处理路径绘制操作的实现假定与 PageDrawer 交互实例。

因此，除非有人想复制和粘贴所有这些 OperatorProcessor类的微小变化，必须从这样一个特定的解析器类派生。

因此，在您的情况下，我们还将从 PageDrawer 派生我们的解析器。，毕竟我们对路径绘制操作感兴趣:

public class PrintPaths extends PageDrawer
{
    //
    // constructor
    //
    public PrintPaths() throws IOException
    {
        super();
    }

    //
    // method overrides for mere path observation
    //
    // ignore text
    @Override
    protected void processTextPosition(TextPosition text) { }

    // ignore bitmaps
    @Override
    public void drawImage(Image awtImage, AffineTransform at) { }

    // ignore shadings
    @Override
    public void shFill(COSName shadingName) throws IOException { }

    @Override
    public void processStream(PDPage aPage, PDResources resources, COSStream cosStream) throws IOException
    {
        PDRectangle cropBox = aPage.findCropBox();
        this.pageSize = cropBox.createDimension();
        super.processStream(aPage, resources, cosStream);
    }

    @Override
    public void fillPath(int windingRule) throws IOException
    {
        printPath();
        System.out.printf("Fill; windingrule: %s\n\n", windingRule);
        getLinePath().reset();
    }

    @Override
    public void strokePath() throws IOException
    {
        printPath();
        System.out.printf("Stroke; unscaled width: %s\n\n", getGraphicsState().getLineWidth());
        getLinePath().reset();
    }

    void printPath()
    {
        GeneralPath path = getLinePath();
        PathIterator pathIterator = path.getPathIterator(null);

        double x = 0, y = 0;
        double coords[] = new double[6];
        while (!pathIterator.isDone()) {
            switch (pathIterator.currentSegment(coords)) {
            case PathIterator.SEG_MOVETO:
                System.out.printf("Move to (%s %s)\n", coords[0], fixY(coords[1]));
                x = coords[0];
                y = coords[1];
                break;
            case PathIterator.SEG_LINETO:
                double width = getEffectiveWidth(coords[0] - x, coords[1] - y);
                System.out.printf("Line to (%s %s), scaled width %s\n", coords[0], fixY(coords[1]), width);
                x = coords[0];
                y = coords[1];
                break;
            case PathIterator.SEG_QUADTO:
                System.out.printf("Quad along (%s %s) and (%s %s)\n", coords[0], fixY(coords[1]), coords[2], fixY(coords[3]));
                x = coords[2];
                y = coords[3];
                break;
            case PathIterator.SEG_CUBICTO:
                System.out.printf("Cubic along (%s %s), (%s %s), and (%s %s)\n", coords[0], fixY(coords[1]), coords[2], fixY(coords[3]), coords[4], fixY(coords[5]));
                x = coords[4];
                y = coords[5];
                break;
            case PathIterator.SEG_CLOSE:
                System.out.println("Close path");
            }
            pathIterator.next();
        }
    }

    double getEffectiveWidth(double dirX, double dirY)
    {
        if (dirX == 0 && dirY == 0)
            return 0;
        Matrix ctm = getGraphicsState().getCurrentTransformationMatrix();
        double widthX = dirY;
        double widthY = -dirX;
        double widthXTransformed = widthX * ctm.getValue(0, 0) + widthY * ctm.getValue(1, 0);
        double widthYTransformed = widthX * ctm.getValue(0, 1) + widthY * ctm.getValue(1, 1);
        double factor = Math.sqrt((widthXTransformed*widthXTransformed + widthYTransformed*widthYTransformed) / (widthX*widthX + widthY*widthY));
        return getGraphicsState().getLineWidth() * factor;
    }
}

( PrintPaths.java )

由于我们不想实际绘制页面而只想提取将要绘制的路径，因此我们必须去掉 PageDrawer像这样。

此示例解析器输出路径绘制操作以展示如何执行此操作。显然，您可以改为收集它们以进行自动化处理......

您可以像这样使用解析器:

PDDocument document = PDDocument.load(resource);
List<?> allPages = document.getDocumentCatalog().getAllPages();
int i = 7; // page 8

System.out.println("\n\nPage " + (i+1));
PrintPaths printPaths = new PrintPaths();

PDPage page = (PDPage) allPages.get(i);
PDStream contents = page.getContents();
if (contents != null)
{
    printPaths.processStream(page, page.findResources(), page.getContents().getStream());
}

( ExtractPaths.java )

输出是:

Page 8
Move to (35.92070007324219 724.6490478515625)
Line to (574.72998046875 724.6490478515625), scaled width 0.5981000089123845
Stroke; unscaled width: 5.981

Move to (35.92070007324219 694.4660034179688)
Line to (574.72998046875 694.4660034179688), scaled width 0.5981000089123845
Stroke; unscaled width: 5.981

Move to (292.2610168457031 468.677001953125)
Line to (292.8590087890625 468.677001953125), scaled width 512.9430076434463
Stroke; unscaled width: 5129.43

Move to (348.9360046386719 468.677001953125)
Line to (349.53399658203125 468.677001953125), scaled width 512.9430076434463
Stroke; unscaled width: 5129.43

Move to (405.6090087890625 468.677001953125)
Line to (406.2070007324219 468.677001953125), scaled width 512.9430076434463
Stroke; unscaled width: 5129.43

Move to (462.281982421875 468.677001953125)
Line to (462.8799743652344 468.677001953125), scaled width 512.9430076434463
Stroke; unscaled width: 5129.43

Move to (518.9549560546875 468.677001953125)
Line to (519.553955078125 468.677001953125), scaled width 512.9430076434463
Stroke; unscaled width: 5129.43

Move to (35.92070007324219 725.447998046875)
Line to (574.72998046875 725.447998046875), scaled width 0.5981000089123845
Stroke; unscaled width: 5.981

Move to (35.92070007324219 212.5050048828125)
Line to (574.72998046875 212.5050048828125), scaled width 0.5981000089123845
Stroke; unscaled width: 5.981

非常奇特:垂直线实际上被绘制为非常短(大约 0.6 个单位)非常粗(大约 513 个单位)的水平线......

关于pdf - 如何使用PDFBox在pdf中查找表格边框线？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35409283/

文章推荐： vba - 如何共享 Outlook VBA

文章推荐： GWT 请求下载文件

文章推荐： .net - 可以更改批准测试的文件名

css - 如何在CSS中用一种颜色绘制一半对 Angular 线，用另一种颜色绘制另一半对 Angular 线
我将 Bootstrap 与 css 和 java 脚本结合使用。在不影响前端代码的情况下，我真的很难在css中绘制这个背景。在许多问题中，人们将宽度和高度设置为 0%。但是由于我的导航栏，我不能使用
c - scanf ("%79[^\n]",line); 之间的区别vs scanf ("%79[^\n]\n"，线) vs scanf ("%79[^\n]s"，线)
我正在用 c 编写一个程序来读取文件的内容。代码如下: #include void main() { char line[90]; while(scanf("%79[^\
Javascript获取矩阵数组的对 Angular 线
我想使用 javascript 获取矩阵数组的所有对 Angular 线。假设输入输出如下: input = [ [1,2,3], [4,5,6], [7,8,9], ] output =
pdfmake - 线，圆和其他形状？
可以用pdfmake绘制lines，circles和other shapes吗？如果是，是否有documentation或样本？我想用jsPDF替换pdfmake。最佳答案是的，有可能。 pdfm
svg - 如何制作带有边框的SVG“线”？
我有一个小svg小部件，其目的是显示角度列表（参见图片）。现在，角度是线元素，仅具有笔触，没有填充。但是现在我想使用一种“内部填充”颜色和一种“笔触/边框”颜色。我猜想line元素不能解决这个问题，
java - 线-三角形交点检查返回错误的交点
我正在为带有三角对象的 3D 场景编写一个非常基本的光线转换器，一切都工作正常，直到我决定尝试从场景原点 (0/0/0) 以外的点转换光线。但是，当我将光线原点更改为 (0/1/0) 时，相交测试突
Python Shebang 线
这个问题已经有答案了: Why do people write "#!/usr/bin/env python" on the first line of a Python script? (22 个回
java - 如何在屏幕上绘制星号(*)线？
如何使用大约 50 个星号 * 并使用 for 循环绘制一条水平线？当我尝试这样做时，结果是垂直(而不是水平)列出 50 个星号。 public void drawAstline() { f
java - 球不动；线？
这是一个让球以对角线方式下降的 UI，但球保持静止；线程似乎无法正常工作。你能告诉我如何让球移动吗？请下载一个球并更改目录，以便程序可以找到您的球的分配位置。没有必要下载足球场，但如果您愿意，也可以
ant - Jmeter和Ant报90%线
我在我的一个项目中使用 Jmeter 和 Ant，当我们生成报告时，它会在报告中显示 URL、#Samples、失败、成功率、平均时间、最短时间、最长时间。我也想在报告中包含 90% 的时间线。现
Java Swing 线
我有一个不寻常的问题，希望有人能帮助我。我想用 Canvas (android) 画一条 Swing 或波浪线，但我不知道该怎么做。它将成为蝌蚪的尾部，所以理想情况下我希望它的形状更像三角形，一端更大
javafx粗笔画路径(线)与圆之间的碰撞问题
这个问题已经有答案了: Checking Collision of Shapes with JavaFX (1 个回答) 已关闭 8 年前。我正在使用 JavaFx 8 库。我的任务很简单:我想检
bash - 如何按编号的百分比拆分文件。线？
如何按编号的百分比拆分文件。行数？假设我想将我的文件分成 3 个部分(60%/20%/20% 部分)，我可以手动执行此操作，-_-: $ wc -l brown.txt 57339 brown.tx
圆圈之间的 HTML 线
我正在努力实现这样的目标: 但这就是我设法做到的。你能帮我实现预期的结果吗？更新: 如果我删除 bootstrap.css 依赖项，问题就会消失。我怎样才能让它与 Bootstrap 一起工作？
css - 转换比例导致间隙/线
我目前正在构建一个网站，但遇到了 transform: scale 的问题。我有一个按钮，当用户将鼠标悬停在它上面时，会发生两件事: 背景以对 Angular 线“扫过” 按钮标签颜色改变按钮稍微变
macos - 非常快速地绘制图形(线)
我需要使用直线和仿射变换绘制大量数据点的图形(缩放图形以适合 View )。目前，我正在使用 NSBezierPath，但我认为它效率很低(因为点在绘制之前被复制到贝塞尔路径)。通过将我的数据切割成
image - 从车牌上删除多余的像素/线
我正在使用基于 SVM 分类的 HOG 特征检测器。我可以成功提取车牌，但提取的车牌除了车牌号外还有一些不必要的像素/线。我的图像处理流程如下: 在灰度图像上应用 HOG 检测器裁剪检测到的区域调
python - 间隙填充轮廓/线
我有以下图片: 我想填充它的轮廓(即我想在这张图片中填充线条)。我尝试了形态学闭合，但使用大小为 3x3 的矩形内核和 10 迭代并没有填满整个边界。我还尝试了一个 21x21 内核和 1 迭代，但
algorithm - 统计两组序列的交点(线)
我必须找到一种算法，可以找到两组数组之间的交集总数，而其中一个数组已排序。举个例子，我们有这两个数组，我们向相应的数字画直线。这两个数组为我们提供了总共 7 个交集。有什么样的算法可以帮助我解决
c++ - 如何从带有透视投影的近裁剪平面绘制射线/线？
简单地说 - 我想使用透视投影从近裁剪平面绘制一条射线/线到远裁剪平面。我有我认为是使用各种 OpenGL/图形编程指南中描述的方法通过单击鼠标生成的正确标准化的世界坐标。我遇到的问题是我的光线似乎

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

pdf - 如何使用PDFBox在pdf中查找表格边框线？