gpt4 book ai didi

java - iText 支持 OCR 吗?

转载 作者:行者123 更新时间:2023-12-04 00:45:02 25 4
gpt4 key购买 nike

我想问一个关于 iText 的问题。我在 PDF 文件中搜索文本时遇到问题。

我可以使用 getTextfromPage() 方法创建纯文本文件,如以下代码示例所述:

/** The original PDF that will be parsed. */
public static final String PREFACE = "D:/B.pdf";
/** The resulting text file. */
public static final String RESULT = "D:/Result.txt";
public void ParsePDF(String From, String Destination) throws IOException{

PdfReader reader = new PdfReader(PREFACE);
PrintWriter out = new PrintWriter(new FileOutputStream(RESULT));
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
out.println(PdfTextExtractor.getTextFromPage(reader, i));
}
out.flush();
out.close();
reader.close();

}

我正在尝试在生成的文本中查找特定的 String,如下所示:

    public void FindWords(String From) {
try{
String ligneLue;
LineNumberReader lnr=new LineNumberReader(new FileReader(RESULT));
try{
while((ligneLue=lnr.readLine())!=null){
SearchForSVHC(ligneLue,SvhcList);
}
}
finally{
lnr.close();
}
}
catch(IOException e){
System.out.println(e);}
}
public void SearchForSVHC(String Ligne,List<String> List){
for(String CAS :List){
if(Ligne.contains(CAS)){
System.out.print("Yes "+CAS);
break;
}}
}

我的问题是我正在解析的一些 PDF 包含扫描图像,这意味着没有真正的文本,只有像素。

iText 是否支持光学字符识别 (OCR) 以及后续问题:有没有办法确定 PDF 是否由扫描图像组成?

最佳答案

在回答您的问题之前,我已经对您的问题进行了非常彻底的编辑。

当 PDF 由扫描图像组成时,没有要解析的真实文本,只有像素看起来像文本的图像。您需要执行 OCR 才能知道此类扫描页面上实际写的是什么,而 iText 不支持 OCR。

关于后续问题:很难确定 PDF 是否包含扫描图像。第一个赠品是:页面中只有一张图片,没有文字。

但是:由于您对图像的性质一无所知(也许您的 PDF 只包含假日照片),因此很难确定 PDF 是否是一个充满文本扫描页的文档(即:栅格化文本)。

关于java - iText 支持 OCR 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16565840/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com