gpt4 book ai didi

maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort

转载 作者:可可西里 更新时间:2023-11-01 16:05:13 25 4
gpt4 key购买 nike

我正在尝试运行 spark-terasort使用 spark-1.6.1-bin-hadoop1(hadoop 1.X 的预构建包)。

当我尝试运行 spark 时:

./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen  ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort

我得到错误:

Exception in thread "main" java.lang.IncompatibleClassChangeError: Found class org.apache.hadoop.mapreduce.JobContext, but interface was expected

这可能与不同的 Hadoop 版本有关(在 spark 和 spark-terasort 之间)。我曾尝试使用 pom.xml(用于编译 spark-terasort)但没有取得太大成功。

如何将 spark-terasort 与 spark-1.6.1-bin-hadoop1 一起使用?

最佳答案

spark-terasort 旧的:

  <scala.binary.version>2.10</scala.binary.version>
<spark.version>1.2.1</spark.version>

我正在考虑修补它。会回来的..

更新 我尝试使用 1.6.0-SNAPSHOT,TeraGen 运行良好。

Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000

这是针对本地 文件系统运行的。我将在大约 12 小时后查看真正的 hdfs。

关于maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37280725/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com