gpt4 book ai didi

hadoop - Kubernetes 分布式文件系统

转载 作者:可可西里 更新时间:2023-11-01 15:08:33 26 4
gpt4 key购买 nike

嗯,我的公司正在考虑从 Hadoop 迁移到 Kubernetes。我们可以在Kubernetes中找到解决方案,例如cassandra,sparks等工具。所以最后一个问题是如何在Kubernetes中存储海量文件,比如说1PB。仅供引用,我们不想使用 S3 等在线存储服务。

据我所知,HDFS只是在Kubernetes中使用,还有Torus、Quobyte等少数替代产品。所以我的问题是,对 Kubernetes 上的文件系统有什么建议吗?或者有什么更好的解决方案?

非常感谢。

最佳答案

您可以使用 Hadoop 兼容 文件系统,例如 Ceph 或 Minio。两者都提供与 S3 兼容的 REST API,用于读写。在 Kubernetes 中,可以使用 Rook 部署 Ceph项目。

但总的来说,在 Kubernetes 中运行 HDFS 需要有状态的服务,例如 NameNode 和具有适当亲和性和网络规则的 DataNode。 Hadoop Ozone该项目实现了对象存储对于微服务工作负载比 HDFS block 存储更常见,因为合理地尝试使用分布式微服务分析 PB 数据是不可行的。 (我只是猜测)

替代方法是 use Docker support in Hadoop & YARN 3.x

关于hadoop - Kubernetes 分布式文件系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54178155/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com