gpt4 book ai didi

apache-spark - 使用 v2 算法安全地写入 Google Cloud Storage?

转载 作者:行者123 更新时间:2023-12-03 20:23:09 25 4
gpt4 key购买 nike

Recommended settings for writing to object stores说:

For object stores whose consistency model means that rename-based commits are safe use the FileOutputCommitter v2 algorithm for performance; v1 for safety.


使用 v2 算法写出 Google Cloud Storage 是否安全? ?
算法“不安全”究竟意味着什么?用于决定我是否处于 v2 不安全的情况的具体标准是什么?

最佳答案

啊。我写了一点文档。还有你引用的一篇论文。

  • GCP 以非原子方式实现 rename(),因此 v1 实际上并不比 v2 更健壮。 v2 可以快很多。
  • Azure“abfs”连接器具有 O(1) 次原子重命名,一切都很好。
  • S3 的性能和安全性都受到了影响。由于它现在是一致的,因此风险较小,但在生产数据集上仍然非常缓慢。使用更高性能的提交程序(EMR spark 提交程序、S3A 提交程序)
  • 或者查看云优先格式,例如:Iceberg、Hudi、Delta Lake。这就是这些天的重点。
  • 关于apache-spark - 使用 v2 算法安全地写入 Google Cloud Storage?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66933229/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com