gpt4 book ai didi

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗?

转载 作者:可可西里 更新时间:2023-11-01 14:15:56 24 4
gpt4 key购买 nike

我们有大量服务器数据存储在 S3 中(很快将采用 Parquet 格式)。数据需要一些转换,因此它不能是 S3 的直接副本。我将使用 Spark 来访问数据,但我想知道是否可以不使用 Spark 来处理它,写回 S3,然后复制到 Redshift,如果我可以跳过一个步骤,运行查询以提取/转换数据,然后将其直接复制到 Redshift?

最佳答案

没问题,完全有可能。

读取 parquet 的 Scala 代码(取自 here )

val people: RDD[Person] = ... 
people.write.parquet("people.parquet")
val parquetFile = sqlContext.read.parquet("people.parquet") //data frame

写入 redshift 的 Scala 代码(取自 here )

parquetFile.write
.format("com.databricks.spark.redshift")
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
.option("dbtable", "my_table_copy")
.option("tempdir", "s3n://path/for/temp/data")
.mode("error")
.save()

关于hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36635241/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com