gpt4 book ai didi

azure - 从哪里开始使用 Azure 数据工厂

转载 作者:行者123 更新时间:2023-12-03 00:08:44 25 4
gpt4 key购买 nike

我是 Azure 数据工厂的新手,正在为我的组织进行概念验证,我发现很难获得有关相当基本的事情的良好信息,我希望有人能给我指出一些适合我的用例的好资源。

我知道这个问题很普遍,但任何帮助都会有用。我现在在兜圈子,感觉自己浪费了很多时间。在 ssis 中需要花费几分钟的事情到目前为止已经花费了几个小时的研究,而且我仍然没有取得太大进展。

这是用例:

  • gzip 存档每小时到达 Blob 存储中,其中包含多个 .tsv 文件,但我想提取一个包含网络点击流数据的文件。
  • 我想从存档中提取这个 .tsv 文件,将日期时间附加到名称中,然后将其保存到 Azure 数据湖存储。
  • 我希望每次新的 gzip 存档到达时都会发生这种情况。

到目前为止我已经:

  • Azure 数据工厂 V2 设置
  • 将服务设置链接到 blob 容器
  • 将服务设置链接到数据湖存储 Gen1
  • 我认为 ADF 访问存储的所有权限和防火墙问题均已解决。

Azure 数据工厂是适合这项工作的工具吗?如果是这样,我该去哪里?如何构建数据集和管道来实现用例,以及如何安排它在新 zip 到达时运行?

最佳答案

Azure 数据工厂专为复杂的混合提取-转换-加载 (ETL)、提取-加载-转换 (ELT) 和数据集成项目而构建,这也是完成此作业的正确工具。根据目前的知识,您需要在数据工厂中进行以下设置:

  1. 创建一个管道来运行整个工作流程,其中 Copy activity涉及,源数据集为blob接收器数据集是 data lake store Gen1 。请注意,源 Blob 数据集是指您的 Blob 链接服务,接收器数据湖存储 Gen1 是指数据湖存储 Gen1 链接服务。
  2. 对于 blob 源数据集设置,设置 compression type property as GZIP ,这允许 ADF 从 blob 读取 GZIP 压缩数据。
  3. 使用event trigger每次新的 gzip 存档到达时都会触发管道运行。

关于azure - 从哪里开始使用 Azure 数据工厂,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52556066/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com