gpt4 book ai didi

hadoop - Hadoop 中的 part-r-00000 和 part-m-00000 文件有什么区别?

转载 作者:可可西里 更新时间:2023-11-01 14:45:08 26 4
gpt4 key购买 nike

我们在运行 CentOS 的 Virtual Box 上使用 Hadoop 的同时处理 BigData。每当我们执行某些程序时,它都会创建 2 个不同的文件 1) part-r-00000 和 2) part-m-00000。那么这两个文件的区别和用途是什么?

最佳答案

输出文件默认命名为 part-x-yyyyy

哪里:

1) x'm''r',具体取决于作业是否是 map 仅工作,或减少

2) yyyyy为Mapper,或Reducer任务编号(从零开始(00000))

因此,如果一个作业有 10 个 reducer,生成的文件将命名为 part-r-00000 到 part-r-00009,每个 reducer 任务一个.

可以更改默认名称。

这就是您在 Driver 类中更改输出文件默认值所需要做的全部工作:job.getConfiguration().set(“mapreduce.output.basename”, “Neo”);

因此这将导致您的文件被称为 “Neo-r-00000”

关于hadoop - Hadoop 中的 part-r-00000 和 part-m-00000 文件有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55527847/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com