maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort-6ren

maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort

转载作者：可可西里更新时间：2023-11-01 16:05:13

25

4

我正在尝试运行 spark-terasort使用 spark-1.6.1-bin-hadoop1(hadoop 1.X 的预构建包)。

当我尝试运行 spark 时:

./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen  ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort

我得到错误:

Exception in thread "main" java.lang.IncompatibleClassChangeError: Found class org.apache.hadoop.mapreduce.JobContext, but interface was expected

这可能与不同的 Hadoop 版本有关(在 spark 和 spark-terasort 之间)。我曾尝试使用 pom.xml(用于编译 spark-terasort)但没有取得太大成功。

如何将 spark-terasort 与 spark-1.6.1-bin-hadoop1 一起使用？

最佳答案

spark-terasort 是旧的:

  <scala.binary.version>2.10</scala.binary.version>
  <spark.version>1.2.1</spark.version>

我正在考虑修补它。会回来的..

更新我尝试使用 1.6.0-SNAPSHOT，TeraGen 运行良好。

Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000

这是针对本地文件系统运行的。我将在大约 12 小时后查看真正的 hdfs。

关于maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37280725/

25

4

0

文章推荐： hadoop - 在oozie中查找上次执行工作流的时间

文章推荐： java - 如何在 mapreduce 中对 map 端程序的输出进行排序？

文章推荐： hadoop - Hortonwork 在 vmware 中安装后无法与浏览器连接

文章推荐： c++ - 如何将Window放入QWidget布局(Qt5)

hadoop - 错误 terasort.TeraSort : Input path does not exist: maprfs:/user/user01/–DXmx1024m
在通过修改参数运行 terasort 应用程序时，我收到以下错误。 15/05/24 21:41:42 ERROR terasort.TeraSort: Input path does not exi
hadoop 基准测试 - terasort
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
Hadoop Terasort 不稳定的基准测试结果
我有一个 Cloudera Hadoop 集群，我正在做一些运行 Terasort 的基准测试，但我在 105 - 150 分钟内得到非常不稳定的结果。有时我看到它比平时复制更多或进行大量垃圾收集，但
Hadoop 在运行 terasort 时崩溃了？
我正在使用 Hadoop 单节点，稍后可能会转向多节点。现在同一个节点既是主节点也是从节点，因此 namenode、datanode resource manager 和 node manager 是
sorting - Hadoop 中的 Terasort 调度程序
在 Hadoop 的 Terasort 实现中，有一个名为 TeraScheduler 的调度程序。通读代码后，调度程序基本上执行以下操作: 选择 split 次数最少的宿主对于该主机，选择主机数量
hadoop - 为什么不为 hadoop TeraSort 映射器/ reducer
我计划在 Hadoop 0.20.2 中的 TeraSort 类的映射器中插入一些代码。但是查看源码，找不到mapper实现的那段。通常，我们会看到一个名为 job.setMapperClass()
apache - 500GB或1TB上的Hadoop 2.6和2.7 Apache Terasort
在运行 map 和 reducer 启动时，它从0变为100失败，并显示: 15/05/12 07:21:27 INFO terasort.TeraSort: starting 15/05/12 07
performance - 为什么 TeraSort 映射阶段在 CRC32.update() 函数中花费大量时间？
我正在尝试分析哪些函数在 TeraSort Hadoop 作业中消耗的时间最多。对于我的测试系统，我使用的是基本的单节点伪分布式设置。这意味着 NameNode、DataNode、Tasktracke
hadoop - Yarn Terasort 对 7 和 14 个工作节点的执行时间相同
我有一个包含 15 个节点(1 个主节点和 14 个从节点)的 hadoop 集群，其中 HDFS 的复制因子为 3。我使用以下命令在 YARN 中运行了 10GB 的 TeraSort: yarn
apache-spark - Spark : fail to run the terasort when the amount of data gets bigger
我有一个包含 terasort 的 spark bench，当数据只有几百 GB 时它可以正常运行，但是当我生成更多数据(例如 1 TB)时，它在某些步骤中出错了。以下是我的代码: import or
maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort
我正在尝试运行 spark-terasort使用 spark-1.6.1-bin-hadoop1(hadoop 1.X 的预构建包)。当我尝试运行 spark 时: ./bin/spark-subm

首页

博学

6Ren·AI

商城

maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort