gpt4 book ai didi

scala - 如何将RDD数据保存到json文件而不是文件夹中

转载 作者:行者123 更新时间:2023-12-02 20:40:41 34 4
gpt4 key购买 nike

我收到了要保存在S3中的流数据myDStream(DStream[String])(基本上,对于这个问题,我确切地希望在哪里保存输出都没有关系,但以防万一。

以下代码可以正常工作,但是它保存名称类似于jsonFile-19-45-46.json的文件夹,然后在文件夹内部保存_SUCCESSpart-00000文件。

是否可以将每个RDD[String](这些都是JSON字符串)数据保存到JSON 文件中,而不是文件夹中?我以为repartition(1)必须做出这个技巧,但事实并非如此。

    myDStream.foreachRDD { rdd => 
// datetimeString = ....
rdd.repartition(1).saveAsTextFile("s3n://mybucket/keys/jsonFile-"+datetimeString+".json")
}

最佳答案

AFAIK没有选项将其另存为文件。因为这是一个分布式处理框架,并且不是在单个文件上写的好习惯,而是每个分区都在指定路径中写自己的文件。

We can pass only output directory where we wanted to save the data. OutputWriter will create file(s)(depends on partitions) inside specified path with part- file name prefix.

关于scala - 如何将RDD数据保存到json文件而不是文件夹中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49808523/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com