gpt4 book ai didi

azure - Azure 数据工厂数据流中 "Dataset"和 "Inline"源之间的区别?

转载 作者:行者123 更新时间:2023-12-04 03:22:12 25 4
gpt4 key购买 nike

Azure 数据工厂数据流源中的“数据集”和“内联”两种源类型有什么区别?在什么情况下我应该使用其中一种而不是另一种?

我已阅读official documentation来自 Microsoft,但我无法弄清楚:

When a format is supported for both inline and in a dataset object, there are benefits to both. Dataset objects are reusable entities that can be used in other data flows and activities such as Copy. These reusable entities are especially useful when you use a hardened schema. Datasets aren't based in Spark. Occasionally, you might need to override certain settings or schema projection in the source transformation.

Inline datasets are recommended when you use flexible schemas, one-off source instances, or parameterized sources. If your source is heavily parameterized, inline datasets allow you to not create a "dummy" object. Inline datasets are based in Spark, and their properties are native to data flow.

最佳答案

数据集是一个额外的抽象级别,并且在历史上是必需的。数据集肯定有一席之地,因为它们提供了架构和参数等附加功能,但最初的要求意味着您的存储库中经常会出现许多数据集对象,即使对于一次性项目也是如此。

内联允许您访问某些(但不是全部)链接服务资源,而无需创建另一个数据集对象。如果您的操作不需要模式,或者不需要在多个项目中重用的数据集对象,那么内联是一个更干净的选项。我会提到这一点,因为您引用的文档确实如此:内联可以使用管道参数,因此解决方案仍然可以是动态的。

至于建议,我会从内联开始,然后在情况合适时逐渐转向数据集。

关于azure - Azure 数据工厂数据流中 "Dataset"和 "Inline"源之间的区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68318574/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com