gpt4 book ai didi

hadoop - 在 amazon EMR 上运行 HBase 时,为什么/tmp 文件夹与实际数据相比很大?

转载 作者:可可西里 更新时间:2023-11-01 15:41:16 25 4
gpt4 key购买 nike

我们在 amazon EMR 上有一个默认配置的 hadoop+hbase 集群,所以 mapred.child.tmphbase.tmp.dir 都指向 /tmp。我们的集群已经运行了一段时间,现在 /tmp 为 500Gb,而实际 /hbase 数据为 70Gb。

这种差异似乎太大了,我们是否应该定期删除一些/tmp数据?

最佳答案

经过一些调查,我发现我们的 /tmp 数据的最大部分是由 Amazon 将 Hbase 自动备份到 S3 期间失败的 mapreduce 任务创建的。我们成功的 mapreduce 任务不会在 /tmp 中留下太多数据。

我们决定禁用 Amazon 的自动备份并使用 Hbase 工具实现我们自己的备份脚本以导入/导出表。

关于hadoop - 在 amazon EMR 上运行 HBase 时,为什么/tmp 文件夹与实际数据相比很大?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12460446/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com