gpt4 book ai didi

java - S3 文件作为 PDFBox 的输入

转载 作者:行者123 更新时间:2023-12-01 18:15:53 25 4
gpt4 key购买 nike

我尝试过 Apache PDFBox 从 PDF 文件中提取内容,当我只是提取本地 PDF 时,效果很好。

但是我想要解析的实际输入 PDF 位于 S3 存储桶中。

我可以使用下面的代码读取 S3 对象,

final AmazonS3 s3 = AmazonS3ClientBuilder.standard().withRegion(Regions.US_WEST_2).withCredentials(awsCredentailsService()).build();
S3Object object = s3.getObject(new GetObjectRequest(bucketName, key));

InputStream ins = object.getObjectContent();

但我无法弄清楚如何将此文件传递给 PDFBox 来获取内容。 PDFBox load() 方法需要一个 File 对象。我尝试传递上面从 S3Object 获得的输入流 (ins),但它不接受 - 编译错误。

PDDocument doc = PDDocument.load(pdfFile);

请帮忙。

最佳答案

刚刚将 inputStream 传递给 load 方法。它有效!

S3Object object = s3.getObject(new GetObjectRequest(s3BucketName, key));
InputStream ins = object.getObjectContent();

PDDocument doc = PDDocument.load(ins);

关于java - S3 文件作为 PDFBox 的输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60370266/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com