gpt4 book ai didi

hadoop - 创建拆分时,Hadoop忽略mapreduce.input.fileinputformat.split.maxsize

转载 作者:行者123 更新时间:2023-12-02 21:09:14 28 4
gpt4 key购买 nike

我们正在使用HDP2.5,并且有一个处理HBase中某些行的作业。我为作业设置了开始键和结束键,并且还尝试设置mapreduce.input.fileinputformat.split.maxsize以增加映射器的数量,但是与split maxsize值无关,我获得了25个映射任务...

我尝试了一些比dfs.blocksize小2,4,8倍的值。例如。
mapreduce.input.fileinputformat.split.maxsize=67108864
dfs.blocksize=134217728

启用应用程序管理器的日志并没有显示有关YARN如何决定的有用的提示(关于映射任务的数量)。我只看到如下消息:
INFO util.RegionSizeCalculator: Calculating region sizes for table "my_table"
...
INFO mapreduce.JobSubmitter: number of splits:25

什么是增加这项工作的 map task 数量的正确方法?

最佳答案

默认情况下,HBaseMapReduceUtil中的 map task 会映射到区域数。在Splice Machine(开放源代码)中,我们通过询问hbase存储文件来生成更多切点。我们还添加了一种方法,可以直接从memstore中读取增量增量的存储文件,而从HBase远程读取(慢)。

如果您有兴趣,我可以发布代码链接。

关于hadoop - 创建拆分时,Hadoop忽略mapreduce.input.fileinputformat.split.maxsize,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40844396/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com