gpt4 book ai didi

java - Spark : Partitioning an RDD created from HBase data

转载 作者:行者123 更新时间:2023-11-30 10:45:21 28 4
gpt4 key购买 nike

如果我使用

从 HBase(或 MapR-DB)表中读取一些数据
JavaPairRDD<ImmutableBytesWritable, Result> usersRDD = sc.newAPIHadoopRDD(hbaseConf, TableInputFormat.class, ImmutableBytesWritable.class, Result.class);

生成的 RDD 有 1 个分区,我可以看到调用 usersRDD.partitions().size()。使用像 usersRDD.repartition(10) 这样的东西是不可行的,正如 Spark 提示的那样,因为 ImmutableBytesWritable 是不可序列化的。

有没有办法让 Spark 从 HBase 数据创建一个分区的 RDD?

最佳答案

使用 org.apache.hadoop.hbase.mapreduce.TableInputFormat 时的 Spark 分区数取决于 HBase 表的区域数 - 在您的情况下为 1(默认值)。看看my answer to a similar question更多细节。

关于java - Spark : Partitioning an RDD created from HBase data,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37051684/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com