gpt4 book ai didi

hadoop - 尽管 hadoop 访问有效,但在 EMR 上将 spark 与 s3 结合使用失败

转载 作者:可可西里 更新时间:2023-11-01 16:37:51 25 4
gpt4 key购买 nike

<分区>

我正在尝试访问 s3:// 路径

spark.read.parquet("s3://<path>")

我得到了这个错误

Py4JJavaError: An error occurred while calling o31.parquet. : java.io.IOException: No FileSystem for scheme: s3

但是,运行以下行

hadoop fs -ls <path>

有效...

所以我猜这可能是 hadoopspark 之间的配置问题

如何解决?

编辑

阅读建议的答案后,我尝试将硬编码的 jars 添加到 spark 配置,但没有成功

spark = SparkSession\
.builder.master("spark://" + master + ":7077")\
.appName("myname")\
.config("spark.jars", "/usr/share/aws/aws-java-sdk/aws-java-sdk-1.11.221.jar,/usr/share/aws/aws-java-sdk/hadoop-aws.jar")\
.config("spark.jars.packages", "com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.2")\
.getOrCreate()

没有成功

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com