gpt4 book ai didi

google-cloud-dataproc - Cloud Storage 上的 Dataproc : Hot data on HDFS, 冷数据?

转载 作者:行者123 更新时间:2023-12-04 10:26:48 24 4
gpt4 key购买 nike

我正在为专业数据工程师学习,我想知道 Dataproc 上的热门数据的“Google 推荐的最佳实践”是什么(考虑到成本无关紧要)?

如果成本是一个问题,那么我建议将所有数据保存在 Cloud Storage 中,因为它更便宜。

是否可以建立一种机制,使所有数据都在 Cloud Storage 上,而最近的数据会自动缓存在 HDFS 上?类似于 AWS 对 FSx/Lustre 和 S3 所做的事情。

最佳答案

在 HDFS 中存储什么以及在 GCS 中存储什么是一个视情况而定的问题。 Dataproc 支持在 GCS 上运行 hadoop 或 spark 作业 GCS connector ,这使得 Cloud Storage HDFS 兼容而不会损失性能。

Cloud Storage 连接器默认安装在所有 Dataproc 集群节点上,并且可用于 Spark 和 PySpark 环境。

关于google-cloud-dataproc - Cloud Storage 上的 Dataproc : Hot data on HDFS, 冷数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60607667/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com