gpt4 book ai didi

palantir-foundry - 如何强制增量 Foundry Transforms 作业以非增量方式构建而不影响语义版本?

转载 作者:行者123 更新时间:2023-12-01 23:46:37 25 4
gpt4 key购买 nike

如何在不更改转换存储库中的语义版本的情况下强制非增量构建特定数据集?

有关我们特定用例的详细信息:

我们有大约 50 个数据集,由单个增量 python 通过手动注册和 for 循环定义。此转换的输入可以是 100 到 10000 个小 gzip 文件,因此当较大的数据集运行时,它最终会将所有这些分区成只有少数大小合适的 parquet 文件,这非常适合我们的下游作业。然而,在这个作业以增量方式运行数月之后(文件每小时到达),输出中也会出现大量小的 parquet 文件。我们希望能够强制对这个单一数据集进行快照构建,而不必改变会触发所有 50 个数据集的快照构建的转换的语义版本。这可能吗?

我知道一个潜在的解决方法是在转换本身中定义“最大输出文件”,读取现有输出中的当前文件数,并在当前超过最大值时强制创建快照。但是,由于此管道对时间敏感(需要在一小时内运行),这会给管道带来一定程度的不可预测性,因为快照构建需要更长的时间。我们希望能够将这些完整的快照build设置为每月大约在周末运行一次。

最佳答案

在输出数据集上提交一个空的附加事务。

关于palantir-foundry - 如何强制增量 Foundry Transforms 作业以非增量方式构建而不影响语义版本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64054726/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com