gpt4 book ai didi

amazon-web-services - Spark如何创建从S3读取的对象分区?

转载 作者:行者123 更新时间:2023-12-02 18:56:40 26 4
gpt4 key购买 nike

Spark如何创建从S3读取的对象分区?
我在S3中有一个大小为118MB的对象。我将对象读入胶粘动态框架。转换为spark数据框并应用了一些转换。然后将数据写回到S3。输出文件夹由两个大小为51MB和39MB的对象组成。
Spark如何确定从S3读取的数据的分区方案?
代码如下:

df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF()

df = df.filter('student.year != "2005"')

df.write.mode("append").json(s3WritePath)

最佳答案

从s3读取时,默认拆分大小为64 MB。
例如。对于以下3个文件,拆分将如下:

File size       Splits
100MB 64MB, 36MB
23MB 23MB
66MB 64MB, 2MB

关于amazon-web-services - Spark如何创建从S3读取的对象分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62584523/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com