gpt4 book ai didi

java - 如何修复 "hdfs://192.123.81.123:9000/atos/sample.pdf not a SequenceFile"

转载 作者:行者123 更新时间:2023-12-01 23:00:00 25 4
gpt4 key购买 nike

您好,我从 Apache Spark 开始,我从 HDFS 读取 PDF 时遇到问题

我尝试使用二进制文件解决我的问题,但我不知道如何实现,所有示例都是用scala语言编写的。我听说Apache Tika提供了从二进制文件读取PDF的功能,但是只要我不知道如何读取这个pdf文件,这些知识就没用了,现在我正在使用PDFBox

        SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
JavaRDD<File> pdfFiles = javaSparkContext.objectFile("hdfs://192.123.81.123:9000/atos/sample.pdf");
JavaRDD<PDDocument> pdfDocuments = a.map(file -> PDDocument.load(file));
JavaRDD<String> pdfText = pdfDocuments.map(document -> new PDFTextStripper().getText(document));

实际输出是“java.io.IOException: hdfs://192.123.81.123:9000/atos/sample.pdf not a SequenceFile”

最佳答案

我通过使用 .binaryFile(path) 方法解决了我的问题,该方法返回 JavaPairRDD

关于java - 如何修复 "hdfs://192.123.81.123:9000/atos/sample.pdf not a SequenceFile",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58426412/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com