gpt4 book ai didi

hadoop - 如何在 spark newAPIHadoopRDD 中获取 hbase 单元的所有版本?

转载 作者:可可西里 更新时间:2023-11-01 14:53:32 33 4
gpt4 key购买 nike

我知道当您使用 Get API 时,您可以设置 MAX_VERSION_COUNT 以获取单元格的所有版本。但是我没有找到任何关于如何使用spark newAPIHadoopRDD的映射操作获取所有版本的cell的文档。我尝试了一个天真的 result.getColumnCells() 并且它只返回 1 个结果。如何在 spark 中设置 MAX_VERSION_COUNT

最佳答案

查看 TableInputFormat 的源代码后,我发现它从 hbase.mapreduce.scan.maxversions 读取配置。所以像这样设置它是可行的:

val conf = HBaseConfiguration.create()    
conf.set("hbase.mapreduce.scan.maxversions", "VERSION_YOU_WANT")
val hBaseRDD = sparkContext.newAPIHadoopRDD(conf, classOf[TableInputFormat],
classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
classOf[org.apache.hadoop.hbase.client.Result])

关于hadoop - 如何在 spark newAPIHadoopRDD 中获取 hbase 单元的所有版本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28334940/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com