gpt4 book ai didi

google-cloud-dataflow - 从数据流写入BigQuery-作业完成后不会删除JSON文件

转载 作者:行者123 更新时间:2023-12-04 13:38:33 34 4
gpt4 key购买 nike

我们的Dataflow作业之一将其输出写入BigQuery。我对这是如何在后台实现的理解是,Dataflow实际上将结果(分片)以JSON格式写入GCS,然后启动BigQuery加载作业以导入该数据。

但是,我们注意到,作业完成后,无论成功还是失败,都不会删除某些JSON文件。错误消息中没有警告或建议,将不会删除文件。当我们注意到这一点时,我们查看了一下存储桶,其中包含数百个来自失败作业的大JSON文件(主要是在开发过程中)。

我本以为即使工作失败,Dataflow仍应处理所有清理工作,一旦成功,这些文件肯定应该删除,而在工作完成后将这些文件留在原地会招致巨大的存储成本!

这是一个错误吗?

“成功”但在GCS中保留了数百个大文件的作业的示例作业ID: 2015-05-27_18_21_21-2179983738253853896089

最佳答案

因为这种情况仍在发生,所以我们决定在管道完成执行后清理自己。我们运行以下命令来删除不是JAR或ZIP的所有内容:

gsutil ls -p <project_id> gs://<bucket> | grep -v '[zip|jar]$' | xargs -n 1 gsutil -m rm -r

关于google-cloud-dataflow - 从数据流写入BigQuery-作业完成后不会删除JSON文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30180197/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com