gpt4 book ai didi

azure - 在 Azure 数据工厂中使用 SQL 存储过程与 Databricks

转载 作者:行者123 更新时间:2023-12-03 04:57:54 27 4
gpt4 key购买 nike

我需要使用 ADF 管道每天将最多 500k 条记录写入 Azure SQL DB。我进行了简单的计算,作为可以在 SQL 存储过程事件中执行的数据转换的一部分。我还观察到 Databricks Notebooks 被广泛使用,尤其是。由于 future 可扩展性的好处。但是,转换后将文件放置在另一个位置、管理身份验证等是一项开销事件,除非绝对需要,否则我希望避免任何过度设计。我已经测试了 SQL 存储过程,它对于大约 50k 条记录运行得很好(尚未用更高的容量进行测试)。

但我仍然想知道这两个选项之间的一般建议,尤其是。来自经验丰富的 Azure 或数据工程师。谢谢

最佳答案

我不确定是否有足够的信息来提出可靠的建议。数据来源是什么?为什么 ADF 是解决方案的一部分?这 500K 行是每天一次还是持续流?您是否要加载到暂存表,然后使用 SPROC 将数据移动和转换到另一个表?

这里有一些想法:

  1. 如果数据操作是 SQL 到 SQL [意味着源和接收器使用相同的 SQL 实例],则使用存储过程。这可以让您靠近金属并发挥最佳性能。如果计算负载确实很复杂,则异常(exception),但这里的情况似乎并非如此。

  2. 一般来说,从 ADF 调用 Data Bricks 的唯一原因是您已经具备专业知识并且已经存在支持它的资源。

由于 ADF 是故事的一部分,因此两个场景之间有一个中间地带 - 数据流。数据流是数据 block 的低代码抽象。它们非常适合动态数据转换,并且在高负载下表现良好。您无需创作或部署笔记本,也无需管理 Data Bricks 配置。他们是 ADF 管道中的一等公民。

关于azure - 在 Azure 数据工厂中使用 SQL 存储过程与 Databricks,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64061539/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com