gpt4 book ai didi

java - 如何使用 PDFBox 读取 PDF 文件内容中的特殊字符串

转载 作者:行者123 更新时间:2023-12-02 08:00:22 25 4
gpt4 key购买 nike

我想编写一个程序来提取论文中的主题、作者、摘要和其他信息。pdfbox 可以做到这一点吗?我该怎么办?

最佳答案

假设您已经将 pdfbox jar 添加到您的项目中,下面是您检索 PDF 的一些基本文档属性的代码

import java.io.File; 
import java.io.IOException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentInformation;

public class readPdf {
public static void main(String args[]) throws IOException {

//Loading an existing document

File file = new File("C:/Users/user1/Desktop/test.pdf");

PDDocument document = PDDocument.load(file);
//Getting the PDDocumentInformation object
PDDocumentInformation pdd = document.getDocumentInformation();

//Retrieving the info of a PDF document
System.out.println("Author of the document is :"+ pdd.getAuthor());
System.out.println("Title of the document is :"+ pdd.getTitle());
System.out.println("Subject of the document is :"+ pdd.getSubject());

System.out.println("Creator of the document is :"+ pdd.getCreator());
System.out.println("Creation date of the document is :"+ pdd.getCreationDate());
System.out.println("Modification date of the document is :"+
pdd.getModificationDate());
System.out.println("Keywords of the document are :"+ pdd.getKeywords());

//Closing the document
document.close();
}
}

更多文档属性请引用here 。 HTH。

关于java - 如何使用 PDFBox 读取 PDF 文件内容中的特殊字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47565467/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com