gpt4 book ai didi

pyspark - 如何通过pyspark将csv文件写入一个文件

转载 作者:行者123 更新时间:2023-12-04 11:03:11 42 4
gpt4 key购买 nike

我用 this写入csv文件的方法。但它会生成一个包含多个零件文件的文件。那不是我想要的;我需要它在一个文件中。而且我还发现了another post使用scala强制在一个分区上计算所有内容,然后获取一个文件。

第一个问题:如何在 Python 中实现这一点?

在第二个帖子中,也说是Hadoop function可以将多个文件合并为一个。

第二个问题:是否可以在 Spark 中合并两个文件?

最佳答案

您可以使用,

df.coalesce(1).write.csv('result.csv')

注:
当您使用合并函数时,您将失去并行性。

关于pyspark - 如何通过pyspark将csv文件写入一个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36574617/

42 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com