gpt4 book ai didi

Azure 数据工厂与工厂

转载 作者:行者123 更新时间:2023-12-03 14:03:54 26 4
gpt4 key购买 nike

我目前正在使用数据工厂构建一个 Azure 数据湖,并且正在寻求一些关于拥有多个数据工厂与只有一个数据工厂的建议。

我目前有一个数据工厂,即从一个EBS实例获取数据,针对一个企业下的一个特定公司。尽管将来可能会有其他 EBS 实例和其他公司(以其他应用程序作为来源)合并到工厂中 - 我认为该图可能会变得有点困惑。

我四处搜索,发现了这个网站,它建议将所有内容保留在单个数据工厂中以重用链接的服务。我想这是一件好事,但是,由于我已经为一个数据工厂编写了构建脚本,因此再次构建链接服务以指向同一个数据湖将非常容易。

https://www.purplefrogsystems.com/paul/2017/08/chaining-azure-data-factory-activities-and-datasets/

只有一个数据工厂实例的优点:

  • 只需创建一次数据集、链接服务
  • 可以在一张图表中看到整体沿袭

缺点

  • 随着时间的推移可能会变得困惑
  • 可能会变得相当大,甚至无法找到您正在寻找的管道

是否有人部署了 Azure 数据工厂的大型部署,从而引入了潜在的数千个数据源,将它们混合在一起并进行转换?有兴趣听听您的想法。

最佳答案

我的建议是只拥有一个,因为这样可以更轻松地配置多个集成运行时(网关)。如果您决定拥有多个数据工厂,请考虑到一台电脑只能安装 1 个集成运行时,并且集成运行时只能注册到 1 个数据工厂实例。

我认为您列出的缺点都可以通过命名规则来解决。如果您将其命名为 Pipeline_[数据库名称][数据库架构][表名称],那么找到所需的管道并不麻烦。

我有一个包含数千个数据集和管道的项目,它并不比较小的项目更难处理。

希望这有帮助!

关于Azure 数据工厂与工厂,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48198927/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com