gpt4 book ai didi

apache-spark - 如何使用 spark DF 或 DS 读取 ".gz"压缩文件?

转载 作者:行者123 更新时间:2023-12-04 04:14:05 24 4
gpt4 key购买 nike

我有一个 .gz 格式的压缩文件,是否可以使用 spark DF/DS 直接读取文件?

详细信息:文件是带有制表符分隔的 csv。

最佳答案

读取压缩的 csv 与读取未压缩的 csv 文件的方式相同。对于 Spark 2.0+ 版本,可以使用 Scala 完成如下操作(注意制表符分隔符的额外选项):

val df = spark.read.option("sep", "\t").csv("file.csv.gz")

PySpark:

df = spark.read.csv("file.csv.gz", sep='\t')

唯一需要考虑的额外因素是 gz 文件不可拆分,因此 Spark 需要使用单个核心读取整个文件,这会减慢速度。读取完成后,可以对数据进行混洗以增加并行度。

关于apache-spark - 如何使用 spark DF 或 DS 读取 ".gz"压缩文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49490640/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com