gpt4 book ai didi

hadoop - RAMdisk 中的 HBase 速度较慢

转载 作者:可可西里 更新时间:2023-11-01 15:39:44 27 4
gpt4 key购买 nike

我有一个关于将 Apache HBase 与 RAMdisk 一起使用的一般性问题。单个表中有大量数据集合,总共约 25GB。有了这些数据,我正在使用 Java 程序进行一些基本的聚合。

因为我有足够的 RAM,我尝试使用 tmpfs 将这个数据集放入 RAMdisk:

mount -t tmpfs -o size=40G none /home/user/ramdisk

然后我停止了HBase,将data文件夹的内容复制到RAMdisk中。最后我创建了一个符号链接(symbolic link),将旧数据目录链接到新数据目录并再次启动 HBase。

它有效,但是当我现在处理聚合时,它变得比以前稍微

如果 HBase 压缩数据(激活 Snappy 压缩)等等,我可以想象使用 RAMdisk 不会产生太大影响......但我无法猜测为什么更快的介质会导致更慢的速度数据的访问。有足够的可用 RAM,因此这不会成为瓶颈。

也许有人对此有一个大概的想法或见解?

最佳答案

我认为这将是两件事之一:A:在分配磁盘之前你真的有超过40G的空闲内存吗?我印象深刻,如果你真的有那么多空闲,但之后看到 ram 空闲并不表示你没有使用大量交换空间。

B:压缩(即使是像 snappy 这样快速的东西)会损害性能……特别是对于像数据库引擎这样的东西,它有很多古怪的优化。 ramdisk 应该快得离谱,这是对的,但它必须跳过所有数据库查询,然后必须跳过整个压缩图像以解压缩 block ,必须有相当大的开销。

关于hadoop - RAMdisk 中的 HBase 速度较慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18311214/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com