gpt4 book ai didi

amazon-web-services - 我们可以使用 sqoop 将数据从 Hadoop (Hive) 导出到 Amazon Redshift

转载 作者:可可西里 更新时间:2023-11-01 14:26:34 24 4
gpt4 key购买 nike

我有一个本地 Hadoop 集群,想将数据加载到 Amazon Redshift。考虑到成本,Informatica/Talend 不是一个选择,那么我们可以利用 Sqoop 直接将表从 Hive 导出到 Redshift 吗? Sqoop 是否连接到 Redshift?

最佳答案

将数据加载到 Amazon Redshift 中的最有效的方法是将数据放入 Amazon S3,然后在 Redshift 中发出 COPY 命令。这会在所有 Redshift 节点上执行并行数据加载。

虽然 Sqoop 可以使用传统的 INSERT SQL 命令将数据插入 Redshift,但这并不是将数据插入 Redshift 的好方法。

首选方法是:

  • 将数据以 CSV 格式(最好是 .gz 或 .bzip 格式)导出到 Amazon S3
  • 在 Redshift 中触发一个 COPY 命令

通过将数据以 CSV 格式复制到 Hive 外部表,您应该能够将数据导出到 S3。

或者,Redshift 可以从 HDFS 加载数据。它需要一些额外的设置来授予 Redshift 对 EMR 集群的访问权限。请参阅 Redshift 文档:Loading Data from Amazon EMR

关于amazon-web-services - 我们可以使用 sqoop 将数据从 Hadoop (Hive) 导出到 Amazon Redshift,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39652301/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com