gpt4 book ai didi

amazon-web-services - 您可以运行具有多个 EMR 集群的交易数据湖(Hudi、Delta Lake)吗?

转载 作者:行者123 更新时间:2023-12-05 05:54:42 26 4
gpt4 key购买 nike

我正在研究几种“事务性数据湖”技术,例如 Apache Hudi、Delta Lake、AWS Lake Formation Governed Tables。

除了后者,我看不出这些在多集群环境中如何工作。我以 s3 为存储基线,并希望逐步改变我的数据湖,我可能有许多集群在任何给定时间都从湖中读取和写入。这可能/支持吗?压缩和交易过程似乎是在集群上进行的。因此,您无法使用来自多个不同来源的这些平台来管理交易数据湖。还是我弄错了?

如果您发现任何轶事或性能限制,我们将不胜感激!

最佳答案

您可以在 Apache Hudi 上为多个编写器启用配置,然后使用此处所述的锁提供程序:https://hudi.apache.org/docs/concurrency_control#enabling-multi-writing

使用 AWS DynamoDB 锁提供程序的示例:

hoodie.write.lock.provider=org.apache.hudi.aws.transaction.lock.DynamoDBBasedLockProvider
hoodie.write.lock.dynamodb.table
hoodie.write.lock.dynamodb.partition_key
hoodie.write.lock.dynamodb.region

Delta Lake 在文档中有一个警告,多个写入器可能会导致数据丢失: https://docs.delta.io/latest/delta-storage.html#amazon-s3

Concurrent writes to the same Delta table from multiple Spark drivers can lead to data loss.

This is a blog您可能会发现讨论 Lakehouse 并发控制中的常见陷阱很有趣。

关于amazon-web-services - 您可以运行具有多个 EMR 集群的交易数据湖(Hudi、Delta Lake)吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69592195/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com