gpt4 book ai didi

java - 无法从 Spark 的 Java 数据集中的 AWS S3 读取数据

转载 作者:行者123 更新时间:2023-12-02 01:54:16 24 4
gpt4 key购买 nike

我正在尝试使用 Java 将数据从 aws s3 读取到 dataset/rdd 中,但得到 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities 。我在 IntelliJ 上用 Java 运行 Spark 代码,因此也在 pom.xml 中添加了 Hadoop 依赖项

下面是我的代码和 pom.xml 文件。

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.api.java.JavaSparkContext;

public class SparkJava {

public static void main(String[] args){

SparkSession spark = SparkSession
.builder()
.master("local")
.config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") .config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
.config("fs.s3n.awsAccessKeyId", AWS_KEY)
.config("fs.s3n.awsSecretAccessKey", AWS_SECRET_KEY)
.getOrCreate();

JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());
String input_path = "s3a://bucket/2018/07/28/zqa.parquet";
Dataset<Row> dF = spark.read().load(input_path); // THIS LINE CAUSES ERROR

}
}

以下是 pom.xml 的依赖项

<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-aws</artifactId>
<version>3.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>3.1.1</version>
</dependency>
</dependencies>

任何帮助将不胜感激。提前致谢!

最佳答案

通过添加流动依赖项解决了这个问题:

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.1.1</version>
</dependency>

关于java - 无法从 Spark 的 Java 数据集中的 AWS S3 读取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52526421/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com