gpt4 book ai didi

hadoop - Spark saveAsTextFile 将空文件 - _$folder$ 写入 S3

转载 作者:可可西里 更新时间:2023-11-01 14:55:39 25 4
gpt4 key购买 nike

rdd.saveAsTextFile("s3n://bucket-name/path) 正在创建一个空文件,文件夹名称为 - [folder-name]_$folder$似乎 hadoop-aws jar(org.apache.hadoop 的) 使用这个空文件来模仿 S3 文件系统作为 hadoop 文件系统。

但是,我的应用程序将数千个文件写入 S3。当 saveAsTextFile 创建文件夹(从给定路径)以写入数据(从 rdd)时,我的应用程序最终创建了数千个这样的空文件 - [directory-name]_$folder$.

有没有办法让 rdd.saveAsTextFile 不写这些空文件?

最佳答案

停止使用 s3n,切换到 s3a。它更快并且实际上得到支持。这将使这个问题以及读取大型 Parquet/ORC 文件的严重性能问题一起消失。

此外,如果您的应用程序在 S3 中创建数以千计的小文件,您将在未来产生性能问题:在 S3 上列出和打开文件很慢。尝试将源数据合并到更大的柱状格式文件中,并使用您的框架必须的任何 SELECT 机制来只读取您想要的位

关于hadoop - Spark saveAsTextFile 将空文件 - <directory>_$folder$ 写入 S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47973305/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com