- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在尝试运行 spark-terasort使用 spark-1.6.1-bin-hadoop1(hadoop 1.X 的预构建包)。
当我尝试运行 spark 时:
./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort
我得到错误:
Exception in thread "main" java.lang.IncompatibleClassChangeError: Found class org.apache.hadoop.mapreduce.JobContext, but interface was expected
这可能与不同的 Hadoop 版本有关(在 spark 和 spark-terasort 之间)。我曾尝试使用 pom.xml(用于编译 spark-terasort)但没有取得太大成功。
如何将 spark-terasort 与 spark-1.6.1-bin-hadoop1 一起使用?
最佳答案
spark-terasort
是旧的:
<scala.binary.version>2.10</scala.binary.version>
<spark.version>1.2.1</spark.version>
我正在考虑修补它。会回来的..
更新 我尝试使用 1.6.0-SNAPSHOT
,TeraGen 运行良好。
Input size: 1000KB
Total number of records: 10000
Number of output partitions: 2
Number of records/output partition: 5000
===========================================================================
===========================================================================
Number of records written: 10000
这是针对本地 文件系统运行的。我将在大约 12 小时后查看真正的 hdfs。
关于maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37280725/
在通过修改参数运行 terasort 应用程序时,我收到以下错误。 15/05/24 21:41:42 ERROR terasort.TeraSort: Input path does not exi
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我有一个 Cloudera Hadoop 集群,我正在做一些运行 Terasort 的基准测试,但我在 105 - 150 分钟内得到非常不稳定的结果。有时我看到它比平时复制更多或进行大量垃圾收集,但
我正在使用 Hadoop 单节点,稍后可能会转向多节点。现在同一个节点既是主节点也是从节点,因此 namenode、datanode resource manager 和 node manager 是
在 Hadoop 的 Terasort 实现中,有一个名为 TeraScheduler 的调度程序。通读代码后,调度程序基本上执行以下操作: 选择 split 次数最少的宿主 对于该主机,选择主机数量
我计划在 Hadoop 0.20.2 中的 TeraSort 类的映射器中插入一些代码。但是查看源码,找不到mapper实现的那段。通常,我们会看到一个名为 job.setMapperClass()
在运行 map 和 reducer 启动时,它从0变为100失败,并显示: 15/05/12 07:21:27 INFO terasort.TeraSort: starting 15/05/12 07
我正在尝试分析哪些函数在 TeraSort Hadoop 作业中消耗的时间最多。对于我的测试系统,我使用的是基本的单节点伪分布式设置。这意味着 NameNode、DataNode、Tasktracke
我有一个包含 15 个节点(1 个主节点和 14 个从节点)的 hadoop 集群,其中 HDFS 的复制因子为 3。我使用以下命令在 YARN 中运行了 10GB 的 TeraSort: yarn
我有一个包含 terasort 的 spark bench,当数据只有几百 GB 时它可以正常运行,但是当我生成更多数据(例如 1 TB)时,它在某些步骤中出错了。以下是我的代码: import or
我正在尝试运行 spark-terasort使用 spark-1.6.1-bin-hadoop1(hadoop 1.X 的预构建包)。 当我尝试运行 spark 时: ./bin/spark-subm
我是一名优秀的程序员,十分优秀!