gpt4 book ai didi

java - 如何提取pdf文件中表格的内容?

转载 作者:搜寻专家 更新时间:2023-10-31 20:27:12 30 4
gpt4 key购买 nike

<分区>

我想像这样提取 pdf 中表格的内容:

enter image description here

我使用 iText java PDF libray 编写了这个 Java 程序它可以逐行读取PDF文件的内容,但我不知道如何获取表格的内容

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class PDFReader {

public static void main(String[] args) {

// TODO, add your application code
System.out.println("Lecteur PDF");
System.out.println (ReadPDF("D:/test.pdf"));
}
private static String ReadPDF(String pdf_url)
{
StringBuilder str=new StringBuilder();
try
{

PdfReader reader = new PdfReader(pdf_url);
int n = reader.getNumberOfPages();
for(int i=1;i<n;i++)
{
String str2=PdfTextExtractor.getTextFromPage(reader, i);
str.append(str2);
System.out.println(str);
}
}catch(Exception err)
{
err.printStackTrace();
}
return String.format("%s", str);
}
}

这是我得到的:

enter image description here

但这不是我想要的,我想逐行逐列的提取表格的内容,比如将每一行保存在一个java数组中

第一个数组将包含:“N°”、“DATE OBSERVATIONS”、“TEXTE”

第二个数组将包含:“029/14”、“Le 1er sept 2014 remplace AVURNAV...”、“SETE A compter du lundi 7 juillet 2014 débuteront les trav...”

第三个数组将包含:“037/14”、“Le 15 octobre 2014 remplace AVURNAV ...”、“SETE Du 15 septembre 2014 au 15 juillet 2015, travaux ...”

等等

谢谢

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com