gpt4 book ai didi

hadoop - 在 Amazon EMR 上设置 Spark 类路径

转载 作者:可可西里 更新时间:2023-11-01 15:13:25 25 4
gpt4 key购买 nike

我正在尝试使用 Hadoop 2.4 和 Spark 1.3.1 在 EMR (AMI 3.6) 上运行一些简单的作业。我在没有引导脚本的情况下手动安装了 Spark。目前我正在尝试读取和处理来自 S3 的数据,但似乎我在我的类路径中丢失了无数的 jar。

在 spark-shell 上运行命令。启动 shell 使用:

spark-shell --jars jar1.jar,jar2.jar...

在 shell 上运行的命令:

val lines = sc.textFile("s3://folder/file.gz")
lines.collect()

错误总是类似于:“找不到类 xyz”。找到所需的 jar 并将其添加到类路径后,我将再次收到此错误,但错误消息中的类名不同。

是否需要一组 jar 来处理(压缩和未压缩的)S3 文件?

最佳答案

我能够按照 AWS GitHub 存储库中的逻辑找出我的类路径所需的 jar https://github.com/awslabs/emr-bootstrap-actions/tree/master/spark .

install-spark 和 install-spark-script.py 文件包含将 jar 复制到 SPARK_CLASSPATH 变量 (spark-env.sh) 使用的新“类路径”目录的逻辑。

我个人丢失的 jar 位于/usr/share/aws/emr/emrfs/lib/和/usr/share/aws/emr/lib/

关于hadoop - 在 Amazon EMR 上设置 Spark 类路径,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30494873/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com