gpt4 book ai didi

amazon-web-services - 将 Parquet 文件加载到 Redshift

转载 作者:行者123 更新时间:2023-12-03 16:04:33 25 4
gpt4 key购买 nike

我在 S3 上有一堆 Parquet 文件,我想以最佳方式将它们加载到 redshift 中。

每个文件被分成多个块......将数据从 S3 加载到 Redshift 的最佳方法是什么?

另外,如何在 Redshift 中创建目标表定义?有没有办法从 Parquet 推断模式并以编程方式创建表?我相信有一种方法可以使用 Redshift 频谱来做到这一点,但我想知道这是否可以在脚本中完成。

感谢你的帮助!

我正在考虑使用所有 AWS 工具(例如 Glue、Lambda 等)来以最佳方式(在性能、安全性和成本方面)执行此操作。

最佳答案

亚马逊 Redshift COPY command可以通过使用参数 native 加载 Parquet 文件:

FORMAT AS PARQUET

见: Amazon Redshift Can Now COPY from Parquet and ORC File Formats

该表必须预先创建;它不能自动创建。

另请注意来自 COPY from Columnar Data Formats - Amazon Redshift :

COPY inserts values into the target table's columns in the same order as the columns occur in the columnar data files. The number of columns in the target table and the number of columns in the data file must match.

关于amazon-web-services - 将 Parquet 文件加载到 Redshift,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52194599/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com