gpt4 book ai didi

python - 如何通过pyspark以gzip格式保存spark RDD

转载 作者:太空狗 更新时间:2023-10-29 20:47:15 24 4
gpt4 key购买 nike

所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩(gz 格式)并保存而不是将其另存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

最佳答案

saveAsTextFile 方法采用一个可选参数,该参数指定压缩编解码器类:

help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

关于python - 如何通过pyspark以gzip格式保存spark RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34203906/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com