java - 从 PDFBox 剥离时的文本坐标-6ren

java - 从 PDFBox 剥离时的文本坐标

转载作者：搜寻专家更新时间：2023-11-01 02:37:07

31

4

我正在尝试使用 PDFBox 从 pdf 文件中提取带坐标的文本。

我混合了一些在互联网上找到的方法/信息(也是 stackoverflow)，但我的坐标问题似乎不正确。例如，当我尝试使用坐标在 tex 顶部绘制矩形时，矩形被绘制在其他地方。

这是我的代码(请不要判断风格，写得很快只是为了测试)

TextLine.java

    import java.util.List;
    import org.apache.pdfbox.text.TextPosition;

    /**
     *
     * @author samue
     */
    public class TextLine {
        public List<TextPosition> textPositions = null;
        public String text = "";
    }

myStripper.java

    import java.io.IOException;
    import java.util.ArrayList;
    import java.util.List;
    import org.apache.pdfbox.pdmodel.PDDocument;
    import org.apache.pdfbox.pdmodel.PDPage;
    import org.apache.pdfbox.text.PDFTextStripper;
    import org.apache.pdfbox.text.TextPosition;

    /*
     * To change this license header, choose License Headers in Project Properties.
     * To change this template file, choose Tools | Templates
     * and open the template in the editor.
     */

    /**
     *
     * @author samue
     */
    public class myStripper extends PDFTextStripper {
        public myStripper() throws IOException
        {
        }

        @Override
        protected void startPage(PDPage page) throws IOException
        {
            startOfLine = true;
            super.startPage(page);
        }

        @Override
        protected void writeLineSeparator() throws IOException
        {
            startOfLine = true;
            super.writeLineSeparator();
        }

        @Override
        public String getText(PDDocument doc) throws IOException
        {
            lines = new ArrayList<TextLine>();
            return super.getText(doc);
        }

        @Override
        protected void writeWordSeparator() throws IOException
        {
            TextLine tmpline = null;

            tmpline = lines.get(lines.size() - 1);
            tmpline.text += getWordSeparator();

            super.writeWordSeparator();
        }


        @Override
        protected void writeString(String text, List<TextPosition> textPositions) throws IOException
        {
            TextLine tmpline = null;

            if (startOfLine) {
                tmpline = new TextLine();
                tmpline.text = text;
                tmpline.textPositions = textPositions;
                lines.add(tmpline);
            } else {
                tmpline = lines.get(lines.size() - 1);
                tmpline.text += text;
                tmpline.textPositions.addAll(textPositions);
            }

            if (startOfLine)
            {
                startOfLine = false;
            }
            super.writeString(text, textPositions);
        }

        boolean startOfLine = true;
        public ArrayList<TextLine> lines = null;

    }

AWT 按钮上的点击事件

 private void jButton1MouseClicked(java.awt.event.MouseEvent evt) {                                      
    // TODO add your handling code here:
    try {
        File file = new File("C:\\Users\\samue\\Desktop\\mwb_I_201711.pdf");
        PDDocument doc = PDDocument.load(file);

        myStripper stripper = new myStripper();

        stripper.setStartPage(1); // fix it to first page just to test it
        stripper.setEndPage(1);
        stripper.getText(doc);

        TextLine line = stripper.lines.get(1); // the line i want to paint on

        float minx = -1;
        float maxx = -1;

        for (TextPosition pos: line.textPositions)
        {
            if (pos == null)
                continue;

            if (minx == -1 || pos.getTextMatrix().getTranslateX() < minx) {
                minx = pos.getTextMatrix().getTranslateX();
            }
            if (maxx == -1 || pos.getTextMatrix().getTranslateX() > maxx) {
                maxx = pos.getTextMatrix().getTranslateX();
            }
        }

        TextPosition firstPosition = line.textPositions.get(0);
        TextPosition lastPosition = line.textPositions.get(line.textPositions.size() - 1);

        float x = minx;
        float y = firstPosition.getTextMatrix().getTranslateY();
        float w = (maxx - minx) + lastPosition.getWidth();
        float h = lastPosition.getHeightDir();

        PDPageContentStream contentStream = new PDPageContentStream(doc, doc.getPage(0), PDPageContentStream.AppendMode.APPEND, false);

        contentStream.setNonStrokingColor(Color.RED);
        contentStream.addRect(x, y, w, h);
        contentStream.fill();
        contentStream.close();

        File fileout = new File("C:\\Users\\samue\\Desktop\\pdfbox.pdf");
        doc.save(fileout);
        doc.close();
    } catch (Exception ex) {

    }
}

有什么建议吗？我做错了什么？

最佳答案

这只是过度 PdfTextStripper 坐标规范化的另一种情况。就像你一样，我曾认为通过使用 TextPosition.getTextMatrix()(而不是 getX() 和 getY)可以得到实际坐标，但不，即使这些矩阵值也必须更正(至少在 PDFBox 2.0.x 中，我没有检查 1.8.x)，因为矩阵乘以平移，使裁剪框的左下角成为原点。

因此，在您的情况下(裁剪框的左下角不是原点)，您必须更正这些值，例如通过替换

        float x = minx;
        float y = firstPosition.getTextMatrix().getTranslateY();

通过

        PDRectangle cropBox = doc.getPage(0).getCropBox();

        float x = minx + cropBox.getLowerLeftX();
        float y = firstPosition.getTextMatrix().getTranslateY() + cropBox.getLowerLeftY();

代替

你现在得到

不过，显然，您还必须稍微修正一下高度。这是由于 PdfTextStripper 确定文本高度的方式:

    // 1/2 the bbox is used as the height todo: why?
    float glyphHeight = bbox.getHeight() / 2;

(来自 LegacyPDFStreamEngine 中的 showGlyph(...)，PdfTextStripper 的父类)

虽然字体边界框确实通常太大，但通常只有一半是不够的。

关于java - 从 PDFBox 剥离时的文本坐标，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46080131/

31

4

0

文章推荐： Java/Eclipse - 条件断点和计数器？

文章推荐： javascript - 使用 safari 在 Canvas 中绘制包含 html 的 svg

文章推荐： javascript - 使用 AngularJS ng-repeat 的 OrderBy bool 值

python - 给定 X 坐标，如何计算一个点的 Y 坐标，使其位于贝塞尔曲线上
我有一个点(粉色圆圈)，它有一个已知的 X 坐标和一个已知的 Y 坐标，但 Y 坐标> 坐标不正确。它当前位于目标贝塞尔曲线(部分位于白色正方形中的曲线)所在的点(如果它是两点之间的一条线)。我需要为
c++ - 如何根据 X 坐标(QWT)获取绘图曲线的 Y 坐标？
有一个基于QML 和QWT 的代码，一种具有更多可能性的图形生成器。技术要求之一是根据某个 X 坐标获得绘图曲线的 Y 坐标。有一种不准确的方法 - 获取 QwtPlotCurve 的 QPoint
java - 如何停止 3D 转换为 2D 坐标，在另一侧创建 "ghost"坐标？
我目前正在将对象的 3D 坐标转换为 2D 坐标，然后在其上绘制 2D 文本(目前是对象名称): public static int[] getScreenCoords(double x, doubl
python - 使用 pyplot.scatter() 方法绘制元组列表(x 坐标、y 坐标、颜色)
首先，我创建一个元组列表(要绘制的点)。每个元组由 3 个数字组成(x - 坐标，y - 坐标，c - 点的颜色) import random import matplotlib.pyplot as
Java 坐标
我正在制作一个 2 人 Java 游戏，但我需要确保坐标保留在板上。 addPiece(1, 1, "X"); addPiece(8, 8, "O"); showBoard(); Scanner my
Python最近邻——坐标
我想检查我是否正确使用了 scipy 的 KD 树，因为它看起来比简单的暴力破解要慢。关于这个我有三个问题: Q1. 如果我创建以下测试数据: nplen = 1000000 # WGS84 lat
geolocation - GeoJSON 坐标？
我有一个 GeoJSON 文件，我正在尝试处理它以便在谷歌地图上绘制一些功能。然而，问题在于坐标不是传统的纬度/经度表示法，而是一些大的六位/七位数字。示例: { "type":
java - 坐标(数组列表)
我在使用坐标时遇到格式化问题。 public class Coordinate { public int x; public int y; public Coordinate( int x
java - 在android中获取当前位置(坐标)？
我正在尝试获取当前位置的经度和纬度坐标。这是到目前为止我的代码: public class MainActivity extends AppCompatActivity { @Override pro
贝塞尔曲线的 OpenGL 坐标
基本上，我需要获取从 OpenGL 中的贝塞尔曲线实现绘制的所有坐标。具体来说，我需要坐标来沿着弯曲的轨迹路径移动场景中的球体对象(棒球)。这是我用来绘制曲线的: GL2 gl = drawable.
java - 数学、坐标
现在我用 JAVA 遇到了一些问题，但不记得如何获取坐标系之间的长度。例如。A 点 (3,7)B点(7,59) 我想知道如何计算a点和b点之间的距离。非常感谢您的回答。 :-) 最佳答案 A = (
python - Tkinter - 坐标
我正在用 Pi2Go 机器人制作一个小项目，它将从超声波传感器获取数据，然后如果它看到一个物体，则放置一个 X，并放置 O 它当前所在的位置，我有两个问题:如何在 tkinter 上设置坐标位置？例如
python - 如何在pygame中存储对象先前的x位置(坐标)？
如何在 pygame 中存储对象的先前坐标？我的问题可能有点难以解释，但我会尽力，如果您自己尝试我的代码以理解我的意思可能会有所帮助。这就是我的游戏的内容。我希望这能让我的问题更容易理解。我正在创
ios - 获取用户当前位置/坐标
如何存储用户的当前位置并在 map 上显示该位置？我能够在 map 上显示预定义的坐标，只是不知道如何从设备接收信息。此外，我知道我必须将一些项目添加到 Plist 中。我怎样才能做到这一点？最
java - 缩放图像并将其放置在Android的LinearLayout中的特定位置(坐标)
我在 android 应用程序开发方面不是很熟练，我正在开发一个测试应用程序。我检测到了脸和眼睛，现在我要根据眼睛的坐标在脸上画一些像粉刺或疤痕的东西(例如脸颊上的眼睛下方)。稍后，我会把眼镜或帽子放
android - 人脸检测API-坐标
所以我正在使用 API 来检测图像中的人脸，到目前为止它对我来说效果很好。然而，我一直无法弄清楚如何将图像裁剪到脸上。我知道如何裁剪位图，但它需要获取位图中脸部的左上角位置以及宽度和高度。当我使用查
sql - 计算位于边界框内的点/坐标
我有 2 个表。第一个表包含以下列:Start_latitude、start_longitude、end_latitude、end_longitude、sum。 sum 列为空，需要根据第二张表进行填
ios - 获取指定城镇的随机地址/坐标
有没有办法给 Google Maps API 或类似的 API 一个城镇名称，并让它返回城镇内的随机地址？我希望能够将数据作为 JSON 获取，以便我可以在 XCode 中使用 SwiftyJSON
Python - 获取线的周边区域(坐标)
我将坐标保存在 numpy 数组 x 和 y 中。现在我想要的只是获得一个多边形(分别是点数组)，它用给定的宽度参数定义周围区域。我遇到的问题是我需要一个没有(!)交叉点的多边形。但是，当曲线很窄时
按下按钮的 Swift 坐标
我正在开发井字游戏 (3x3)，所以我有 9 个按钮，我想做的是获取用户按下的按钮的坐标，并在按钮的位置插入图像。例子: @IBOutlet weak var button1Outlet: UIBu

首页

博学

6Ren·AI

商城

java - 从 PDFBox 剥离时的文本坐标