- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
黑色形状是需要提取的文本:
到目前为止,我已经从列中提取了文本,但是是手动的,因为只有 5 个(对区域使用 Rectangle 类)。我的问题是:有没有办法对行执行此操作,因为矩形的大小(高度)不同并且手动将其执行到 50 多行将是一种暴行?更具体地说,我可以使用函数根据每一行的高度更改矩形吗?或者任何可能有帮助的建议?
最佳答案
如评论中所建议,您可以通过解析页面的 vector 图形指令自动识别示例 PDF 的表格单元格区域。
对于这样的任务,您可以扩展 PDFBox PDFGraphicsStreamEngine
,它提供调用路径构建和绘图指令的抽象方法。
注意:我在这里展示的流引擎类专门用于识别绘制为示例文档中使用的黑色填充的长小矩形的表格单元格框架线。对于通用解决方案,您至少还应该识别绘制为 vector 图形线段或描边矩形的框架线。
PdfBoxFinder
该流引擎类收集水平线的y坐标范围和垂直线的x坐标范围,然后提供由这些坐标范围定义的网格的框.特别是这意味着不支持行跨度或列跨度;在手头的情况下,这是可以的,因为没有这样的跨度。
public class PdfBoxFinder extends PDFGraphicsStreamEngine {
/**
* Supply the page to analyze here; to analyze multiple pages
* create multiple {@link PdfBoxFinder} instances.
*/
public PdfBoxFinder(PDPage page) {
super(page);
}
/**
* The boxes ({@link Rectangle2D} instances with coordinates according to
* the PDF coordinate system, e.g. for decorating the table cells) the
* {@link PdfBoxFinder} has recognized on the current page.
*/
public Map<String, Rectangle2D> getBoxes() {
consolidateLists();
Map<String, Rectangle2D> result = new HashMap<>();
if (!horizontalLines.isEmpty() && !verticalLines.isEmpty())
{
Interval top = horizontalLines.get(horizontalLines.size() - 1);
char rowLetter = 'A';
for (int i = horizontalLines.size() - 2; i >= 0; i--, rowLetter++) {
Interval bottom = horizontalLines.get(i);
Interval left = verticalLines.get(0);
int column = 1;
for (int j = 1; j < verticalLines.size(); j++, column++) {
Interval right = verticalLines.get(j);
String name = String.format("%s%s", rowLetter, column);
Rectangle2D rectangle = new Rectangle2D.Float(left.from, bottom.from, right.to - left.from, top.to - bottom.from);
result.put(name, rectangle);
left = right;
}
top = bottom;
}
}
return result;
}
/**
* The regions ({@link Rectangle2D} instances with coordinates according
* to the PDFBox text extraction API, e.g. for initializing the regions of
* a {@link PDFTextStripperByArea}) the {@link PdfBoxFinder} has recognized
* on the current page.
*/
public Map<String, Rectangle2D> getRegions() {
PDRectangle cropBox = getPage().getCropBox();
float xOffset = cropBox.getLowerLeftX();
float yOffset = cropBox.getUpperRightY();
Map<String, Rectangle2D> result = getBoxes();
for (Map.Entry<String, Rectangle2D> entry : result.entrySet()) {
Rectangle2D box = entry.getValue();
Rectangle2D region = new Rectangle2D.Float(xOffset + (float)box.getX(), yOffset - (float)(box.getY() + box.getHeight()), (float)box.getWidth(), (float)box.getHeight());
entry.setValue(region);
}
return result;
}
/**
* <p>
* Processes the path elements currently in the {@link #path} list and
* eventually clears the list.
* </p>
* <p>
* Currently only elements are considered which
* </p>
* <ul>
* <li>are {@link Rectangle} instances;
* <li>are filled fairly black;
* <li>have a thin and long form; and
* <li>have sides fairly parallel to the coordinate axis.
* </ul>
*/
void processPath() throws IOException {
PDColor color = getGraphicsState().getNonStrokingColor();
if (!isBlack(color)) {
logger.debug("Dropped path due to non-black fill-color.");
return;
}
for (PathElement pathElement : path) {
if (pathElement instanceof Rectangle) {
Rectangle rectangle = (Rectangle) pathElement;
double p0p1 = rectangle.p0.distance(rectangle.p1);
double p1p2 = rectangle.p1.distance(rectangle.p2);
boolean p0p1small = p0p1 < 3;
boolean p1p2small = p1p2 < 3;
if (p0p1small) {
if (p1p2small) {
logger.debug("Dropped rectangle too small on both sides.");
} else {
processThinRectangle(rectangle.p0, rectangle.p1, rectangle.p2, rectangle.p3);
}
} else if (p1p2small) {
processThinRectangle(rectangle.p1, rectangle.p2, rectangle.p3, rectangle.p0);
} else {
logger.debug("Dropped rectangle too large on both sides.");
}
}
}
path.clear();
}
/**
* The argument points shall be sorted to have (p0, p1) and (p2, p3) be the small
* edges and (p1, p2) and (p3, p0) the long ones.
*/
void processThinRectangle(Point2D p0, Point2D p1, Point2D p2, Point2D p3) {
float longXDiff = (float)Math.abs(p2.getX() - p1.getX());
float longYDiff = (float)Math.abs(p2.getY() - p1.getY());
boolean longXDiffSmall = longXDiff * 10 < longYDiff;
boolean longYDiffSmall = longYDiff * 10 < longXDiff;
if (longXDiffSmall) {
verticalLines.add(new Interval(p0.getX(), p1.getX(), p2.getX(), p3.getX()));
} else if (longYDiffSmall) {
horizontalLines.add(new Interval(p0.getY(), p1.getY(), p2.getY(), p3.getY()));
} else {
logger.debug("Dropped rectangle too askew.");
}
}
/**
* Sorts the {@link #horizontalLines} and {@link #verticalLines} lists and
* merges fairly identical entries.
*/
void consolidateLists() {
for (List<Interval> intervals : Arrays.asList(horizontalLines, verticalLines)) {
intervals.sort(null);
for (int i = 1; i < intervals.size();) {
if (intervals.get(i-1).combinableWith(intervals.get(i))) {
Interval interval = intervals.get(i-1).combineWith(intervals.get(i));
intervals.set(i-1, interval);
intervals.remove(i);
} else {
i++;
}
}
}
}
/**
* Checks whether the given color is black'ish.
*/
boolean isBlack(PDColor color) throws IOException {
int value = color.toRGB();
for (int i = 0; i < 2; i++) {
int component = value & 0xff;
if (component > 5)
return false;
value /= 256;
}
return true;
}
//
// PDFGraphicsStreamEngine overrides
//
@Override
public void appendRectangle(Point2D p0, Point2D p1, Point2D p2, Point2D p3) throws IOException {
path.add(new Rectangle(p0, p1, p2, p3));
}
@Override
public void endPath() throws IOException {
path.clear();
}
@Override
public void strokePath() throws IOException {
path.clear();
}
@Override
public void fillPath(int windingRule) throws IOException {
processPath();
}
@Override
public void fillAndStrokePath(int windingRule) throws IOException {
processPath();
}
@Override public void drawImage(PDImage pdImage) throws IOException { }
@Override public void clip(int windingRule) throws IOException { }
@Override public void moveTo(float x, float y) throws IOException { }
@Override public void lineTo(float x, float y) throws IOException { }
@Override public void curveTo(float x1, float y1, float x2, float y2, float x3, float y3) throws IOException { }
@Override public Point2D getCurrentPoint() throws IOException { return null; }
@Override public void closePath() throws IOException { }
@Override public void shadingFill(COSName shadingName) throws IOException { }
//
// inner classes
//
class Interval implements Comparable<Interval> {
final float from;
final float to;
Interval(float... values) {
Arrays.sort(values);
this.from = values[0];
this.to = values[values.length - 1];
}
Interval(double... values) {
Arrays.sort(values);
this.from = (float) values[0];
this.to = (float) values[values.length - 1];
}
boolean combinableWith(Interval other) {
if (this.from > other.from)
return other.combinableWith(this);
if (this.to < other.from)
return false;
float intersectionLength = Math.min(this.to, other.to) - other.from;
float thisLength = this.to - this.from;
float otherLength = other.to - other.from;
return (intersectionLength >= thisLength * .9f) || (intersectionLength >= otherLength * .9f);
}
Interval combineWith(Interval other) {
return new Interval(this.from, this.to, other.from, other.to);
}
@Override
public int compareTo(Interval o) {
return this.from == o.from ? Float.compare(this.to, o.to) : Float.compare(this.from, o.from);
}
@Override
public String toString() {
return String.format("[%3.2f, %3.2f]", from, to);
}
}
interface PathElement {
}
class Rectangle implements PathElement {
final Point2D p0, p1, p2, p3;
Rectangle(Point2D p0, Point2D p1, Point2D p2, Point2D p3) {
this.p0 = p0;
this.p1 = p1;
this.p2 = p2;
this.p3 = p3;
}
}
//
// members
//
final List<PathElement> path = new ArrayList<>();
final List<Interval> horizontalLines = new ArrayList<>();
final List<Interval> verticalLines = new ArrayList<>();
final Logger logger = LoggerFactory.getLogger(PdfBoxFinder.class);
}
您可以像这样使用 PdfBoxFinder
从位于 FILE_PATH
的示例文档的表格单元格中提取文本:
try ( PDDocument document = PDDocument.load(FILE_PATH) ) {
for (PDPage page : document.getDocumentCatalog().getPages()) {
PdfBoxFinder boxFinder = new PdfBoxFinder(page);
boxFinder.processPage(page);
PDFTextStripperByArea stripperByArea = new PDFTextStripperByArea();
for (Map.Entry<String, Rectangle2D> entry : boxFinder.getRegions().entrySet()) {
stripperByArea.addRegion(entry.getKey(), entry.getValue());
}
stripperByArea.extractRegions(page);
List<String> names = stripperByArea.getRegions();
names.sort(null);
for (String name : names) {
System.out.printf("[%s] %s\n", name, stripperByArea.getTextForRegion(name));
}
}
}
( ExtractBoxedText 测试 testExtractBoxedTexts
)
输出的开始:
[A1] Nr.
crt.
[A2] Nume şi prenume
[A3] Titlul lucrării
[A4] Coordonator ştiinţific
[A5] Ora
[B1] 1.
[B2] SFETCU I. JESSICA-
LARISA
[B3] Analiza fluxurilor de date twitter
[B4] Conf. univ. dr. Frîncu Marc
Eduard
[B5] 8:00
[C1] 2.
[C2] TARBA V. IONUȚ-
ADRIAN
[C3] Test me - rest api folosind java şi
play framework
[C4] Conf.univ.dr. Fortiş Teodor
Florin
[C5] 8:12
文档第一页:
关于java - 从具有不同高度的表格行中提取 pdf 文本(使用 pdfbox 库的 java),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51380677/
好的,这听起来很简单,但我已经花了几个小时在谷歌上搜索,我只是找不到解决方案,这并不复杂。 我想创建一个包含图像和文本的表格。我希望表格的每一行都具有相同的高度。我希望文本始终从顶部开始。 IE。 \
在我的网站表单上 - 我的出生日期、月份和年份菜单显示在两行上,我希望它们都显示在同一行上。 当我测试代码时,它显示在一行中,所以我相信一定存在宽度问题。 您可以在右侧表格 (incomeprotec
我们需要跟踪和审核生产,本质上我们有很多订单,但我们似乎在途中丢失了一些产品(废品等)。 为了阻止这种情况,我们现在已在 Google 表格上下了订单,并列出了应有的数量,然后员工会写下收到的数量。
我正在转换我的应用程序,以便它适用于 iOS 7。在应用程序的一部分,我有两个搜索栏,每个搜索栏都有一个与之关联的 UISearchDisplayController。当我搜索 UISearchDis
正如标题所说,非固定表格布局是否与类似的 HTML 表格具有相同的性能问题? 最佳答案 非固定表格的问题在于,要确定一列的宽度,必须加载该列的所有单元格。这仅在...... …您有一个包含几千字节或几
我在使用 Javascript 遍历表格并从一行的第一个单元格获取文本时遇到问题。我想获取此单元格的文本,以便我可以将它与其他内容进行比较,如果文本匹配则删除该行。但是,当我尝试获取文本时,实际出现的
我经常发现自己想要制作一个表格表格——一堆行,每一行都是一个单独的表格,有自己的字段和提交按钮。例如,这是一个宠物店应用程序示例——假设这是一个结帐屏幕,您可以选择更新所选宠物的数量和属性,并在结帐前
看过许多UBB代码,包括JS,ASP,JSP的,一直没发现表格的UBB,虽然可以直接用HTML模式实现相同表格功能,但对于某些开放的站点来说开放HTML模式终究是不合适的,故一直想实现表格的UBB。
表格由 table 标签来定义。每个表格均有若干行(由 tr 标签定义),每行被分割为若干单元格(由 td 标签定义)。字母 td 指表格数据(table data),即数据单元格的内容。数据单元格
我有一个 HTML 与 border-radius和使用 position: sticky 的粘性标题看起来像这样: https://codepen.io/muhammadrehansaeed/pen
对于 iPhone 应用程序,我需要以网格格式显示只读表格数据。该数据可能有许多行和列。 我可以使用 UITableView,但问题是数据很可能会非常宽并且需要滚动。 有没有办法将 UITableVi
我知道这里有类似的问题,但我找不到适合我的答案。 我想要的是显示表单“默认”是选择了某些选项(在这种情况下,除了“Ban Appeal”或“Ban Appeal(西类牙语)”之外的所有内容,我希望仅在
天啊! 我想在Flutter中创建以下非常简单的表。基本上是两列文字,左列右对齐,右列左对齐。如果右列具有多个名称,则每一行都将顶部对齐。 左列应自动调整为最大项目的大小(因为每个标题都有翻译字符串)
我们开始构建 SSAS 表格模型,并想知道大多数人是否拥有一个或多个模型。如果有多个,您是否复制每个所需的表,或者是否有办法在模型之间共享表?我想我知道答案,但我希望那些有更多经验的人能够证实我们的发
tl;博士 如何将任意数量的单词分成两列,总是在最后一列中只有最后一个单词,在第一列中包含所有其他单词? =IFS( LEN(C2)-LEN(SUBSTITUTE(C2," ",""))=1, SP
你们知道一个图表或dable,它可以提供一个简短而简洁但仍然完整且相对最新的现有协议(protocol)及其细节的 View ? (即:ZeroMQ、Rendez-Vous、EMS、...所有这些!:
我才刚刚开始开发MFC应用程序,我希望对整个“控件”概念更加熟悉。我在Visual Studio中使用对话框编辑器,到目前为止,我无法找到添加简单表/网格的功能。这对我来说似乎很基础,但是我什至找不到
我需要对一个非常大的表或矩阵执行计算和操作,大约有 7500 行和 30000 列。 矩阵数据将如下所示: 文件编号|字1 |字 2 |字 3 |... |字 30000 |文档类 0032 1 0
我正在使用设计非常糟糕的数据库,我需要在编写查询之前重新调整表格。 以下是我的常见问题: 时间戳已分为两列(一列用于日期,另一列用于时间)。 一些字符串列也被拆分成多个列。 大多数字符串都有固定长度和
我正在尝试显示 $row["name"] 通过 HTML Table 的形式,如下所示: echo " ".$row["name"]." "; 我也从这里获取行变量: $que
我是一名优秀的程序员,十分优秀!