gpt4 book ai didi

hadoop - 是否可以从hbase转换为spark rdd效率?

转载 作者:行者123 更新时间:2023-12-02 20:48:32 25 4
gpt4 key购买 nike

我在hbase中有一个很大的项目数据集,我想加载到spark rdd中进行处理。我的理解是hbase针对hadoop上的低延迟单项搜索进行了优化,因此我想知道是否有可能在hbase中有效地查询1亿个项目(大小约为10Tb)?

最佳答案

这是使Spark和HBase协同工作的一些一般建议。

数据共置和分区

Spark避免了改组:如果您的Spark worker和HBase区域位于同一台机器上,Spark将根据区域创建分区。
HBase中良好的区域划分将映射到Spark中的良好分区。
如果可能,请考虑处理行键和区域拆分。

Spark中的操作与HBase中的操作

经验法则:仅使用HBase扫描,并使用Spark执行其他所有操作。

为了避免在Spark操作中拖尾,您可以考虑对分区进行处理。例如:您可以在HBase扫描的Rowkey或Rowkey前缀上加入2个Spark rdd,而无需进行任何改组。

Hbase配置tweeks

该讨论有点陈旧(某些配置不是最新的),但仍然很有趣:http://community.cloudera.com/t5/Storage-Random-Access-HDFS/How-to-optimise-Full-Table-Scan-FTS-in-HBase/td-p/97

而且下面的链接也有一些线索:
http://blog.asquareb.com/blog/2015/01/01/configuration-parameters-that-can-influence-hbase-performance/

您可能会发现多个来源(包括上述来源)建议更改扫描仪缓存配置,但这仅适用于HBase <1.x

关于hadoop - 是否可以从hbase转换为spark rdd效率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46921778/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com