azure - 在 ADF 管道中映射数据流与 SQL 存储过程-6ren

azure - 在 ADF 管道中映射数据流与 SQL 存储过程

转载作者：行者123 更新时间：2023-12-05 03:49:35

26

4

我有一个要求，需要在 ADF 管道中的映射数据流与 SQL 存储过程之间进行选择，以实现某些业务场景。现在数据量还不是很大，但后期可能会更大。业务逻辑有时很复杂，我必须连接多个表、编写子查询、使用 Windows 函数、嵌套 case 语句等。

我的所有业务需求都可以通过 SP 轻松实现，但考虑到它在底层运行 Spark 并且可以根据需要进行扩展，因此稍微倾向于映射数据流。在 ADF 管道中使用时，ADF 映射数据流是否比 SQL 存储过程更有优势？我对映射数据流的一些担忧如下。

使用数据流实现复杂逻辑所需的时间要多得多比存储过程
映射数据流的执行时间为考虑到旋转 Spark 所需的时间，要高得多集群。

现在，如果我决定在管道中使用 SQL SP，可能会有哪些缺点？如果某个时间点数据量快速增长，会不会导致扩展性出现问题？

最佳答案

这是一种意见问题，在 stackoverflow 上效果不佳，但您将映射数据流与存储过程进行比较的事实告诉我，您拥有 Azure SQL 数据库(或类似数据库)并且架构中的 Azure 数据工厂 (ADF)。

如果您考虑到映射数据流由 Spark 集群支持这一事实，并且您已经拥有 Azure SQL DB，那么您真正拥有的是两种类型的计算。那么为什么两者都要呢？在执行连接、嵌套查询等方面，没有什么比 SQL 更好的了。Azure SQL DB 可以轻松地扩展和缩小(例如通过其 REST API)——这似乎是您的观点之一。

话虽如此，映射数据流功能强大，并提供了良好的低代码体验。因此，如果您的要求是具有强大转换功能的低代码，那么它可能是一个不错的选择。请记住，如果您的数据已经在数据库中并且您正在使用映射数据流，那么您所做的就是从 SQL 中取出数据，将其放入 Spark 集群中，对其进行处理，然后将其推回原处。这对我来说似乎是重复，我保留映射数据流(和 Databricks 笔记本)用于我无法在 SQL 中完成的事情，例如高级分析、硬数学、复杂的字符串操作可能是不错的选择。另一个用例可能是工作卸载，您故意希望从数据库卸载工作。请记住同时运行两种类型的计算所带来的成本影响。

我最近还看到一个示例，其中有人使用映射数据流实现了缓慢变化的维度类型 2 (SCD2)，但使用了 20 多个不同的 MDF 组件来实现。这对我来说只是名义上的低代码，复杂度高，难以维护和调试。可以使用 SQL 中的单个 MERGE 语句完成相同的过程。

所以我个人的观点是，使用映射数据流来完成 SQL 无法完成的事情，特别是当您的架构中已经有 SQL 数据库时。我个人更喜欢 ELT 模式，使用 ADF 进行编排(而不是 MDF)，我认为这种模式更容易维护。

您可能会问的其他一些问题是:

您的团队拥有哪些技能？ SQL 是一项相当常见的技能。 MDF 仍然是低代码但小众的。
您的支持团队拥有哪些技能？当你把这个交给你时，你会用中密度纤维板培训他们吗？
鉴于上述情况，您如何评价这两种方法的复杂性和可维护性？

HTH

关于azure - 在 ADF 管道中映射数据流与 SQL 存储过程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63905395/

26

4

0

文章推荐： microservices - 微服务的 DDD 数据复制

文章推荐： javascript - 如何动态更改 SVG 填充颜色？

文章推荐： python - 如何在 Python 3.7 中注释异步函数的装饰器类型？

c++ - 映射/设置迭代器不是可取消引用的 C++ 映射
请看一下我的代码。 int main () { Program* allcommand = new Program; allcommand->addCommand("add", new
c++ - typedef 映射、for 循环调试断言、映射/设置不兼容
因此，当我遇到调试断言时，我正在编写代码。现在我很想知道为什么这段代码不起作用: for(Model::MeshMap::iterator it = obj1->GetMeshes().begin()
java - 组、收集器、映射(整数到字符串)、映射(映射到对象)
这是我上一个问题的延续 Group, Sum byType then get diff using Java streams . 按照建议，我应该作为单独的线程发布，而不是更新原始线程。因此，通过我
javascript - JQuery 映射 vs Javascript 映射 vs For 循环
我正在实现一些非常适合 map 的代码。但是，我要迭代的列表中有大量对象，所以我的问题是哪种方法是解决此问题的最佳方法: var stuff = $.map(listOfMyObjects, some
不同类成员函数指针的C++映射
我正在尝试创建一个包含不同类的成员函数指针的映射。成员函数都具有相同的签名。为了做到这一点，我所有的类都继承了一个 Object 类，它只有默认构造函数、虚拟析构函数和一个虚拟 ToString()
具有相同键类型和不同项目类型的c++映射
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: how do you make a heterogeneous boost::map? 有可能在 C++ 中
Mysql WHERE IN 映射
我有一个 Mysql 查询，请检查以下内容: SELECT `tbl_classSubjects`.`classID` , `tbl_classSubjects`.`sectionID` , `tbl
JNA直接与接口(interface)映射？
抱歉，这可能是一个基本问题。 JNA直接映射和接口(interface)映射有什么区别？我的解释是否正确: 直接映射 : 直接使用库对象(如 Java 中的静态 main) 接口(interface
以部分函数为值的 Scala 映射
在 Twitter's Scala school collections section ，它们显示了一个带有偏函数作为值的 Map: // timesTwo() was defined earlie
FFMPEG channel 映射
很难说出这里问的是什么。这个问题是模棱两可的、模糊的、不完整的、过于宽泛的或修辞的，无法以目前的形式得到合理的回答。如需帮助澄清这个问题以便重新打开它，visit the help center .
具有原始类型值类型的 Scala 映射
据我了解，从 scala stdlib 声明一个映射并没有将其专门用于原始类型。我要的不是付出装箱/拆箱的代价，而是同时拥有scala map 的接口(interface)。一个明显的选择是使用 tr
没有键路径的数组的 Restkit 映射
如何为这样的 JSON 响应创建对象映射，它只是一个整数数组: [ 565195, 565309, 565261, 565515, 565292, 565281, 566346, 5
NHibernate DTO 映射
是否可以为 DTO 对象创建映射然后查询它们而不是域？如果不解释为什么？如果我需要几个 dtos 怎么办？ DTos 是只读的 ID 由 NH 自动生成将来这些 dtos 将设置映射到链接的 d
包含混合类型值的 Scala 映射
我有一个返回的函数(常规代码) [words: "one two", row: 23, col: 45] 在 Scala 中，我将上面更改为 Scala Map，但随后我被迫将其声明为 Map[Str
python - 映射 - 特征重要性与标签分类
我有一组与 Vanilla 磅蛋糕烘焙相关的数据(200 行)，具有 27 个特征，如下所示。标签caketaste是衡量烤蛋糕的好坏程度，由 bad(0) 定义, neutral(1) , good
复杂连接的 Hibernate 映射
我有试图映射到新代码的遗留代码。 OLD_PERSON pid sid name age NEW_PERSON pid sid fid age RESOLVE_PERSON pid fid statu
带有鉴别器的 hibernate 映射
我有一个表，其中一个字段可以指向其他 3 个表之一中的外键，具体取决于鉴别器值是什么(Project、TimeKeep 或 CostCenter。通常这是用子类实现的，我想知道我有什么注意子类名称与
Haskell:映射 runST
我有一个类型 [ST s (Int, [Int])] 的绑定(bind)我正在尝试申请runST使用映射到每个元素，如下所示: name :: [ST s (Int, [Int])] --Of Cou
子类和连接子类的 NHibernate 映射
在我正在进行的项目中，我有以下实体:分析师、客户和承包商。每个都继承自基类 User。 public abstract class User { public virtual int Id
用户输入的 Vim 映射
我想知道是否可以在 Vim 中创建一个映射(对于普通模式)，允许用户在映射执行之前输入。我想为我最常用的 grep 命令创建一个快捷方式的映射。我希望命令允许输入我正在搜索的内容，然后在输入时执行。

首页

博学

6Ren·AI

商城

azure - 在 ADF 管道中映射数据流与 SQL 存储过程