gpt4 book ai didi

python - 如何优化将Spark数据帧的每一行写为单独的文件

转载 作者:行者123 更新时间:2023-12-02 22:06:30 24 4
gpt4 key购买 nike

我的数据框有大约一百万条记录。以下是我用来将spark数据帧的每一行写入单独文件的代码。但是要花几个小时才能完成。任何对此进行调整的建议将非常有帮助。

row_count = df.count()
row_count = 10,000,00
df1 = df.repartition(row_count)
df1.rdd.map(lambda row:row[0]).saveAsTextFile(targetfolder)

最佳答案

这将影响性能,您应该考虑检查逻辑,如果您确实需要在一个文件中包含一行。

仍然,如果您想这样做,可以不确定是否可以尝试获得多少性能。

win = window.orderBy('anyColumn')
df2=df.withColumn('row',f.row_number().over(win))
df2.write.partitionBy('row').parquet('path')

完全不推荐。

关于python - 如何优化将Spark数据帧的每一行写为单独的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61790914/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com