gpt4 book ai didi

azure-data-factory-2 - 当我们有 Polybase 时为何选择 Azure Data Factory

转载 作者:行者123 更新时间:2023-12-01 10:17:50 25 4
gpt4 key购买 nike

我们的要求是从 Blob 存储中获取数据并转换为其他表格形式。这可以通过使用 polybase 的 Sql DW 来实现。在这种情况下,Azure 数据工厂的真正作用是什么?

我知道 Azure 数据工厂可以实现相同的目标。但是,使用 Polybase 的 Azure DW 不是最简单且经济高效的选择吗?

最佳答案

Polybase 实际上只能做一件事——将数据加载到 Azure Synapse Analytics(以前称为 Azure SQL 数据仓库)或启用了 Polybase 的 SQL Server。更准确地说,Polybase 充当存储在存储或数据湖中的平面文件的虚拟化层,允许它们作为外部表呈现在数据库中,或者使它们可作为物理表加载到数据库中,例如通过 CTAS。

它做得很好,并且是将数据加载到 Synapse/Warehouse 的推荐方法,前提是您为数据加载选择了正确的 DWU 和资源类。

Polybase 在拒绝错误行和一些不同的文件类型/分隔符(逗号、竖线等)方面有一些不错的额外功能,但仅此而已。

因此,如果您需要做的只是加载一些文件或放置一个虚拟化层,那么是的,您可以只使用 Polybase。

但是让我问你几个问题:

  • 你打算如何进行编排?
  • 你打算如何安排时间?基于事件还是基于时间?
  • 当工作完成或出现错误时,您打算如何通知他人?
  • 您打算如何同时启动多个负载? Azure 数据工厂 (ADF) 有一个很棒的 For Each 任务,例如可以并行执行多达 20 个任务
  • 您想在加载之前或之后运行一些存储过程吗?或者任何其他 ELT 事件?

希望这有助于解释 Polybase 的位置,它通常至少是拼图的一部分。如果您有更轻量级的 ELT 流程,您可能会考虑比 ADF 更轻量级的选项,例如逻辑应用程序、Azure Run Books 等。

HTH

关于azure-data-factory-2 - 当我们有 Polybase 时为何选择 Azure Data Factory,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59409491/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com