- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
Driver.java
package driver;
import java.io.IOException;
import mapper.NormalMapper;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import data.Conf;
import data.Record;
import reducer.NormalReducer;
/**
* Driver of NormalJoin(or BasicJoin)
*
* Implements JoinDriver interface
*
*/
public class NormalJoin implements JoinDriver{
public static void main(String[] args) throws ClassNotFoundException,
IOException, InterruptedException {
if (args.length != 3) {
System.err
.println("Usage: Join <left-side table path> <right-side table path> <output path>");
System.exit(-1);
}
String userDir = System.getProperty("user.dir");
Conf conf = new Conf();
if (!conf.loadConf(userDir + "/conf.properties")) { // TODO
System.err.println("Failed in loading configuration file, exit");
System.exit(-2);
}
new NormalJoin().join(args, conf);
}
public void join(String[] args, Conf conf) throws IOException {
JobConf job = new JobConf(NormalJoin.class);
job.setJobName("Equal Join");
Path inLeft = new Path(args[0]);
Path inRight = new Path(args[1]);
Path out = new Path(args[2]);
FileInputFormat.addInputPath(job, inLeft);
FileInputFormat.addInputPath(job, inRight);
FileOutputFormat.setOutputPath(job, out);
job.setMapperClass(NormalMapper.class);
job.setReducerClass(NormalReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
job.setMapOutputValueClass(Record.class);
// configuration
job.set("inputNameLeft", inLeft.toString());
job.set("mapred.textoutputformat.separator", conf.separator);
job.setBoolean("mapred.conf.eliminateDuplicate", conf.eliminateDuplicate);
JobClient.runJob(job);
}
这是我生成的控制台输出,它正在生成一个空输出文件
15/08/03 04:29:47 INFO Configuration.deprecation:
mapred.textoutputformat.separator is deprecated. Instead, use
mapreduce.output.textoutputformat.separator
15/08/03 04:29:47 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/08/03 04:29:47 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/08/03 04:29:48 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
15/08/03 04:29:50 INFO mapred.FileInputFormat: Total input paths to process : 2
15/08/03 04:29:50 INFO mapreduce.JobSubmitter: number of splits:3
15/08/03 04:29:50 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1437465092759_0002
15/08/03 04:29:51 INFO impl.YarnClientImpl: Submitted application application_1437465092759_0002
15/08/03 04:29:51 INFO mapreduce.Job: The url to track the job: http://quickstart.cloudera:8088/proxy/application_1437465092759_0002/
15/08/03 04:29:51 INFO mapreduce.Job: Running job: job_1437465092759_0002
15/08/03 04:30:04 INFO mapreduce.Job: Job job_1437465092759_0002 running in uber mode : false
15/08/03 04:30:04 INFO mapreduce.Job: map 0% reduce 0%
15/08/03 04:30:20 INFO mapreduce.Job: map 33% reduce 0%
15/08/03 04:30:22 INFO mapreduce.Job: map 67% reduce 0%
15/08/03 04:30:23 INFO mapreduce.Job: map 100% reduce 0%
15/08/03 04:30:28 INFO mapreduce.Job: map 100% reduce 100%
15/08/03 04:30:28 INFO mapreduce.Job: Job job_1437465092759_0002 completed successfully
15/08/03 04:30:28 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=5768091
FILE: Number of bytes written=11979199
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=5283057
HDFS: Number of bytes written=0
HDFS: Number of read operations=12
HDFS: Number of large read operations=0
HDFS: Number of write operations=2
Job Counters
Launched map tasks=3
Launched reduce tasks=1
Data-local map tasks=3
Total time spent by all maps in occupied slots (ms)=44449
Total time spent by all reduces in occupied slots (ms)=5532
Total time spent by all map tasks (ms)=44449
Total time spent by all reduce tasks (ms)=5532
Total vcore-seconds taken by all map tasks=44449
Total vcore-seconds taken by all reduce tasks=5532
Total megabyte-seconds taken by all map tasks=45515776
Total megabyte-seconds taken by all reduce tasks=5664768
Map-Reduce Framework
Map input records=69495
Map output records=69495
Map output bytes=5629095
Map output materialized bytes=5768103
Input split bytes=327
Combine input records=0
Combine output records=0
Reduce input groups=55273
Reduce shuffle bytes=5768103
Reduce input records=69495
Reduce output records=0
Spilled Records=138990
Shuffled Maps =3
Failed Shuffles=0
Merged Map outputs=3
GC time elapsed (ms)=672
CPU time spent (ms)=4400
Physical memory (bytes) snapshot=805781504
Virtual memory (bytes) snapshot=6027804672
Total committed heap usage (bytes)=557592576
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=5282730
File Output Format Counters
Bytes Written=0
最佳答案
您在程序中使用了旧的 API
mapred.textoutputformat.separator
尝试使用
mapreduce.output.textoutputformat.separator
hadoop.mapred vs hadoop.mapreduce?
同时发布你的代码
关于java - Hadoop 在命令行上执行时生成空输出文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31786380/
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 9 年前。 Improve this
我有一系列 SQL 命令,我想在大约 40 个不同的表上运行。必须有一种方法可以在不编写 40 条不同命令的情况下执行此操作... 我在 SQL Server 中运行它。所有表都有不同的名称,我要操作
我习惯在 PHP 中使用命令“mysql_insert_id()”来返回插入到我的数据库中的最后一行的 id。 在 C# 中的 SQLite 中是否有等效的命令? 谢谢! -阿德娜 最佳答案 选择 l
试图找出一种方法来回填 ds 分区 Hive 表的分区。 我知道如何从 CLI 运行 Hive 命令,例如 $HIVE_HOME/bin/hive -e 'select a.col from tab1
我有 .bat 文件。看起来像下一个 ....many commands1 ftp -i -s:copy.txt ...many commands2 copy.txt 包含下一个命令 open ...
基本上我想输入 show 并检查是否有 show 命令或别名已定义并触发它,如果未定义则触发 git show 。 例如 rm 应该执行 rm 但 checkout 应该执行 git checkout
我公司的主数据库是 iSeries 机器,我已经非常习惯使用 DB2 命令和结构。我现在正在尝试做一个小项目,更新一个包含超过 300 万条记录的表。我想出一种比较和“清理”数据的更快方法是使用 My
我想在带有 Node 的终端中制作一个简单的按钮板,并“blessed”用于连接或运行不同的命令。 ----------------------------------------------- _
我们有一个 selenium IDE 脚本,正在转换为 python webdriver。以下命令未转换: [openWindow | http://mywebsite.com/index.php |
我正在学习这个关于从 GIT HUB 下载和安装 Web 文件的在线教程。我进入主题:启动我们的静态网站,系统提示我输入命令以下载和安装 Web 文件。但是,当我输入命令 yarn install 时
我在 shell 脚本中使用 elif 命令时遇到问题,就像在 fortran 中一样。 我有 100 家公司的员工名单。我想屏蔽那些员工少于 500 人的公司。我的脚本是 rm -f categor
我有一些 Linux 命令可以生成 token 。我在 Linux 机器上使用操作系统库形式的 Python 自动化了这些命令。它工作正常。 但是,当我在 Windows 中尝试相同的代码时,它没有返
本文分享自华为云社区《Git你有可能不知道交互式暂存》,作者:龙哥手记。 本节中的几个交互式 Git 命令可以帮助你将文件的特定部分组合成提交。 当你在修改了大量文件后,希望这些改动能拆分为若干提交而
我想知道如何使用 IN 比较语法来做到这一点。 当前的 SQL 查询是: select * from employee where (employeeName = 'AJAY' and month(e
我在这个位置安装了 Hadoop /usr/local/hadoop$ 现在我想列出 dfs 中的文件。我使用的命令是: hduser@ubuntu:/usr/local/hadoop$ bin/ha
是否有一个单一的 docker 命令可用于清除所有内容?如果正在运行,请停止所有容器、删除所有图像、删除所有卷...等。 最佳答案 我认为没有一个命令可以做到这一点。您首先需要停止所有容器使用 $ d
我基本上是在 clojure/nrepl 模式中寻找与 C-u C-x C-e 或 C-c C-p 等效的 Scheme。 我想要一个 C-x C-e 将输出打印到缓冲区,而不是仅仅在 repl 中。
我可以在 vim 中使用 pudb(一个 ncurses Python 调试器),因为,例如,:!python %在实际的终端窗口中运行。我更喜欢使用 gvim,但 gvim 运行 :!python
我正在尝试编写一个 FFMPEG 命令: 取为 输入 一个视频 input.mp4 和一个图像 pic.jpg 作为 输出 将 input.mp4 拆分为 20 秒的视频,按顺序重命名;对于每个分割视
我想转储视频每帧的比特率。我正在尝试使用 -vstats 获取此信息命令。当我运行此命令时 - ffmpeg -i input.mp4 -vstats 它显示至少应该定义一个文件。 如果有人能建议我任
我是一名优秀的程序员,十分优秀!