gpt4 book ai didi

java - java中的多个pdf文件到txt

转载 作者:行者123 更新时间:2023-12-02 11:09:38 26 4
gpt4 key购买 nike

我正在使用pdfbox将pdf转换为txt,但我在一个文件夹中有多个文件,需要在不同的txt文件中创建每个文件。我的源代码是

public class PDFconversion
{
public static void main(final String[] args) throws IOException,SAXException, TikaException
{

//Assume sample.txt is in your current directory

File file = new File("sourcefile");

//parse method parameters
FileInputStream inputstream = new FileInputStream(file);
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
metadata.set("org.apache.tika.parser.pdf.sortbyposition", "true");
ParseContext pcontext = new ParseContext();
PDFParser pdfparser = new PDFParser();

System.out.println("Parsing PDF to TEXT...");

pdfparser.parse(inputstream, handler, metadata, pcontext);
FileWriter fw=new FileWriter("targetfile");
//parsing the file
fw.write(handler.toString().trim());

//System.out.println("Contents of the document:" + handler.toString());
}
}

最佳答案

“java -jar tika-app.jar -t -i #input_dir# -o #output_dir#”怎么样?这会调用批处理模式,该模式会将完整目录转换为包含 .txt 文件的镜像目录......或带有“-J”选项的 .json 文件

关于java - java中的多个pdf文件到txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50692771/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com