gpt4 book ai didi

apache-spark - 任何人都尝试使用 spark structured streaming 将数据流式传输到 Redshift

转载 作者:行者123 更新时间:2023-12-04 14:25:14 27 4
gpt4 key购买 nike

我正在尝试查看是否可以使用 spark 结构化流式传输 (v2.2) 将数据流式传输到 Redshift,我找到了 spark-redshift 库 ( https://github.com/databricks/spark-redshift )。但是,它仅适用于批处理模式。关于如何处理流数据的任何其他建议? COPY 到 Redshift 的性能如何?

感谢!

最佳答案

对于少量数据(偶尔有几行数据)可以使用:

insert into table ...
update table ...
delete from table ...

维护 Redshift 数据的命令。这就是 Spark Streaming 可能的工作方式。

但是,对于较大的卷,您必须始终:1) 将数据写入 s3,最好分成 1MB 到 1GB 的文件,最好是 gzip 压缩。2) 运行 redshift copy 命令将 s3 数据加载到 redshift “暂存”区域3) 运行 redshift sql 将暂存数据合并到目标表中。

使用这种复制方法可能比单独插入的效率高数百倍。

当然,这意味着您必须以批处理模式运行。

您可以每隔几分钟运行一次批量更新,以保持较低的 Redshift 数据延迟。

关于apache-spark - 任何人都尝试使用 spark structured streaming 将数据流式传输到 Redshift,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47045387/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com