gpt4 book ai didi

hadoop - 总订单划分的分析阶段

转载 作者:行者123 更新时间:2023-12-02 20:06:48 25 4
gpt4 key购买 nike

Map Reduce Design Patterns Book

You need to run it only once if the distribution of your data does not change quickly over time, because the value ranges it produces will continue to perform well.



我无法理解该语句的含义,这像是一般观察还是在使用TotalOrderPartitioner时可以实际实现?

我们可以以某种方式要求TotalOrderPartitioner不创建分区文件,而仅使用已经创建的分区文件吗?

基本上,使用TotalOrderPartitioner时可以跳过分析阶段吗?

最佳答案

使用TotalOrderPartitioner可以很容易地实现它:

   TotalOrderPartitioner.setPartitionFile(job.getConfiguration(), partitionFile); // use existing file!!!

// InputSampler.writePartitionFile(job, sampler); // Just comment out this line!!!

请注意,来自javadoc:

public static void setPartitionFile(Configuration conf, Path p)

// Set the path to the SequenceFile storing the sorted partition keyset. It must be the case that for R reduces, there are R-1 keys in the SequenceFile.



如果您重新运行排序-如果您的数据稍有变化并且示例仍应很好地代表它-您可以将现有分区文件与示例一起使用,因为InputSampler在客户端上创建该分区文件非常昂贵。但是 您必须使用与InputSampler创建分区文件的作业中使用的数量相同的Reducer。

关于hadoop - 总订单划分的分析阶段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21959861/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com