gpt4 book ai didi

Azure Synapse 二进制到 Parquet

转载 作者:行者123 更新时间:2023-12-03 05:19:31 27 4
gpt4 key购买 nike

我正在将 .gzip 文件作为二进制文件加载到我的原始容器中,我现在想知道如何继续进行 azure synapse 分析。我想获取二进制 .gzip 并将其移动到另一个文件夹,并按照以下步骤将其存储为 Parquet 格式。

  1. 将 .gzip 转换为 json 格式
  2. 将 json 转换为 parquet

我是管道新手,不确定何时使用复制数据与数据流等。

如果有人可以用打印屏幕或非常清楚地展示这些步骤,我们将不胜感激!

谢谢,安德斯

最佳答案

这是我们使用的常见模式,特别是对于来自 SFTP 的较大 ZIP 文件,下载可能需要几个小时。

  1. 首先,正如您已经完成的那样,使用二进制数据集将 zip 文件加载到原始容器中。
  2. 接下来创建一个分隔数据集来定义分隔符、引号、标题等,以读取原始容器文件。在此数据集中,将压缩类型定义为“gzip”。当用作源时,数据工厂将在读取时解压缩/解压缩数据。 [一些注意事项:定义模式是可选的,如果您只是转换格式,则没有必要;您还可以将此数据集用作接收器,数据工厂将在写入时对数据进行 GZ/压缩;如果您的文件是 .zip 而不是 .gz,请使用 ZipDeflate 来完成相同的任务。]
  3. 最后,使用 COPY 或 Dataflow 将数据转换为所需的接收器定义。如果您确实希望转换为 JSON 和 Parquet,您可以通过分支源在单个数据流中完成这两项操作。

关于Azure Synapse 二进制到 Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73428203/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com