gpt4 book ai didi

hadoop - HBase 表大小比 hadoop hdfs 中的文件大得多

转载 作者:可可西里 更新时间:2023-11-01 14:32:04 27 4
gpt4 key购买 nike

最近用hadoop bulk load把数据放到hbase首先,我调用HDFS API向hadoop hdfs中的文件写入数据,总共7000,000行数据,大小为503MB。其次,我使用org.apache.hadoop.hbase.mapreduce.ImportTsvorg.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles 将数据放入hbase。

我做的最重要的事情是使用bulkload工具将数据放入hbase,完成bulkload后,我发现hbase表有1.96GB。 hdfs 复制为 1。我不知道为什么。

最佳答案

存储数据会产生一些开销,因为您必须存储列限定符的名称等,但不是 4 倍的开销。我有一些想法,但绝对不介意听到有关数据性质的更多详细信息,也许还有表格中的统计数据。

  • 您的表格是否启用了压缩功能?如果数据在 HDFS 中被压缩,但在您加载它之后,它没有被压缩,这可能会导致问题。
  • 也许 HBase 出于某种原因不遵守您的复制因子。执行 hadoop fs -dus/path/to/hbase/table/data 并查看返回的内容。
  • 您的列限定符很大吗?例如,colfam1:abc 非常小,不会占用太多空间,但 colfam1:abcdefghijklmnopqrstuvwxyz 在宏大方案中将占用相当多的空间的东西!

关于hadoop - HBase 表大小比 hadoop hdfs 中的文件大得多,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13855171/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com