gpt4 book ai didi

Azure 数据工厂数据集切片

转载 作者:行者123 更新时间:2023-12-01 13:25:47 24 4
gpt4 key购买 nike

我在理解 Azure 数据工厂中的切片(数据集可用性)方面遇到一些困难。假设我有一个永远不会改变的源数据集。然后,出于某种原因,我为源数据集设置了每小时切片。那么每个切片都会相同吗?在这种情况下使用切片有什么意义(即为什么需要它)?或者另一种情况,假设我的源数据集连续附加新数据(例如事件日志)。每天早上我都想对该日志的所有历史记录进行一些分析。我应该设置每日切片吗?每个切片将包含完整的历史记录还是仅包含最后一天的历史记录?

最佳答案

切片是在管道的开始和结束属性中定义的时间段内执行管道的时间间隔。如果您有固定源并且多次执行某个事件,则它将始终使用相同的源(因为它不会更改)。假设您将开始时间和结束时间设置为一天,并将频率设置为 1 小时 - 事件将执行 24 次。您将有 24 个切片,全部使用相同的数据源。

对于第二种情况,如果数据不断变化,您可以将频率设置为每天一次。将处理的内容取决于您在管道中定义的事件 - 假设管道在完成处理后会删除旧的源,或者事件中的逻辑仅接受新数据。

关于Azure 数据工厂数据集切片,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34391887/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com