gpt4 book ai didi

hadoop - 带/不带 HDFS 的 Alluxio

转载 作者:可可西里 更新时间:2023-11-01 15:00:40 24 4
gpt4 key购买 nike

我有一个使用 HDFS 作为底层存储分布式文件系统的集群,但我刚刚读到有关 alluxio 的文章,它既快速又灵活。所以,我的问题是:我应该将 Alluxio 与 HDFS 一起使用,还是 Alluxio 是 HDFS 的替代品? (我在他们的网站上看到存储文件系统的共享存储可以是网络文件系统(NFS)。所以,我认为不需要HDFS。如果我弄错了请指正)。

在哪种模式下性能更好:HDFS with Alluxio or Alluxio stanalone(我的意思是术语standalone是在集群中单独使用而不是在本地使用)。

最佳答案

来自 Alluxio 维护者的回复。

首先,Alluxio 不是 HDFS 的替代品。相反,它是其他分布式/云存储系统之上的新抽象层,包括 HDFS、S3、Azure 对象存储和其他可能的选择。在您的情况下,如果您的数据已经在 HDFS 中,您可能仍会将 HDFS 作为 Alluxio 的持久数据层。

用户使用 Alluxio 并看到显着优势的典型场景包括:

  • 您的物理数据不在您的计算机中。例如,您的大数据引擎正在从 S3 或其他对象存储中读取数据。在这种情况下,通过部署带有计算节点的 Alluxio,可以使 Alluxio 用作文件系统级缓存,以避免重复跨网络获取数据。参见 http://www.alluxio.org/overview/remote-data-acceleration
  • 您正在管理多个存储,并希望公开一个数据访问层以简化管理。例如,可以将多个 S3/存储桶“挂载”到一个 Alluxio 部署中,这样它们就可以作为同一命名空间下的不同目录出现。参见 http://www.alluxio.org/overview/storage-unification

关于您最初的性能问题。答案是,这取决于。如果您的 HDFS 远离计算,您会期望获得良好的性能提升。我还看到了 HDFS 出现瓶颈的情况,Alluxio 也可能有助于减少负载并为某些关键任务作业提供良好的 SLA。

关于hadoop - 带/不带 HDFS 的 Alluxio,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52098711/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com