gpt4 book ai didi

azure - 如何循环数据工厂中数据复制的结果

转载 作者:行者123 更新时间:2023-12-03 07:09:20 24 4
gpt4 key购买 nike

大家好,我正在努力处理数据管道。

我有一个管道,我首先从 api 获取一些数据。该数据除其他外还包含一列 id。我已经设置了数据复制,并将 json 结果保存在 blob 中。

接下来我想做的是迭代所有 id 并为这些 id 执行 api 调用。

但是我一生都无法弄清楚如何迭代 ids。我研究过使用查找和 for-each,但似乎查找仅限于 5000 个结果,而我只有 70k 多条结果。

有什么建议可以给我吗?

最佳答案

作为解决方法,您可以将 API 调用结果分区并存储到较小的 JSON 文件中。然后根据获得的文件数量使用多个管道,并迭代以实现此目的。

由于 ForEach 事件 可以进行并行处理的最大批量计数为 50,并且最多可以处理 100,000 个项目。关注 workaround仅用于查找部分。

Design a two-level pipeline where the outer pipeline iterates over aninner pipeline, which retrieves data that doesn't exceed the maximumrows or size.

示例:

在这里,我将从 API 获取详细信息并将其存储为许多 JSON blob,以帮助将小块数据提供给下一个 LookupActivity

enter image description here

使用GetMetadata事件了解要迭代的分区文件的数量以及要传递到参数化源的名称 future LookupActivity 的数据集

enter image description here

使用执行管道调用另一个管道,该管道将使用 LookupActivityWebActivity 来调用 ids

enter image description here

在子管道中,您有一个 LookupActivity,其中包含要查看的参数化源文件。当 ForEach 事件迭代时,对于每个文件,都会使用 LookupActivity 源处的一个文件触发子管道。这解决了限制问题。

enter image description here

您可以将查找结果存储在变量中或按原样使用动态表达式。

enter image description here

enter image description here

关于azure - 如何循环数据工厂中数据复制的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70767323/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com