gpt4 book ai didi

java - 从pdf文件中提取文本

转载 作者:搜寻专家 更新时间:2023-11-01 01:47:51 25 4
gpt4 key购买 nike

我需要从 pdf 文件中(逐字逐句)提取文本。

import java.io.*;

import com.itextpdf.text.*;

import com.itextpdf.text.pdf.*;

import com.itextpdf.text.pdf.parser.*;

public class pdf {

private static String INPUTFILE = "http://ontology.buffalo.edu/ontology%28PIC%29.pdf" ;

private static String OUTPUTFILE = "c:/new3.pdf";

public static void main(String[] args) throws DocumentException,
IOException {

Document document = new Document();

PdfWriter writer = PdfWriter.getInstance(document,

new FileOutputStream(OUTPUTFILE));

document.open();

PdfReader reader = new PdfReader(INPUTFILE);

int n = reader.getNumberOfPages();

PdfImportedPage page;

// Go through all pages

for (int i = 1; i <= n; i++) {

page = writer.getImportedPage(reader, i);

System.out.println(i);


Image instance = Image.getInstance(page);

document.add(instance);

}

document.close();


PdfReader readerN = new PdfReader(OUTPUTFILE);

PdfTextExtractor parse = new PdfTextExtractor();

for (int i = 1; i <= n; i++)

System.out.println(parser.getTextFromPage(reader,i));


}

当我编译代码时,我有这个错误:

the constructor PdfTextExtractor is undefined

我该如何解决这个问题?

最佳答案

PDFTextExtractor 只包含静态方法,构造函数是私有(private)的。 itext

你可以这样调用它:
String myLine = PDFTextExtractor.getTextFromPage(阅读器, pageNumber)

关于java - 从pdf文件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4026614/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com