gpt4 book ai didi

google-cloud-dataflow - TextIO.Write - 是否附加或替换输出文件(Google Cloud Dataflow)

转载 作者:行者123 更新时间:2023-12-03 02:42:41 26 4
gpt4 key购买 nike

我找不到任何相关文档,所以我想知道如果输出文件已经存在(在 gs://存储桶中),会有什么行为?

谢谢,G

最佳答案

文件将被覆盖。这样做有几个动机:

  • “类似报告”的用例(计算输入数据的摘要并将结果放在 GCS 上)似乎比增量生成数据并将更多数据放入 GCS 的用例要频繁得多管道的每次执行。
  • 如果重新运行管道是幂等的(-ish?),那就太好了。例如。如果您在管道中发现错误,您可以修复它并重新运行它,并享受覆盖的正确结果。在这种情况下,附加到文件的管道将非常难以使用。
  • TextIO.Write不需要指定输出分片的数量;即使对于完全相同的管道和相同的输入数据,不同的执行之间也可能略有不同。在这种情况下附加的语义会非常困惑。
  • 据我所知,使用我所知道的任何文件系统,在保留原子性和容错保证的同时,不可能有效地实现附加(例如,即使面对由于失败而重新执行 bundle )。

此行为将记录在 github 上出现的下一版本的 SDK 中。

关于google-cloud-dataflow - TextIO.Write - 是否附加或替换输出文件(Google Cloud Dataflow),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30551444/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com