gpt4 book ai didi

python - Pyspark - 将数据帧写入 2 个不同的 csv 文件

转载 作者:行者123 更新时间:2023-12-01 02:36:10 25 4
gpt4 key购买 nike

我想将单个 DataFrame 保存到 2 个不同的 csv 文件中(拆分 DataFrame) - 一个仅包含标题,另一个包含其余行。

我想将这两个文件保存在同一目录下,因此如果可能的话,Spark 处理所有逻辑将是最好的选择,而不是使用 pandas 拆分 csv 文件。

最有效的方法是什么?

感谢您的帮助!

最佳答案

假设您有一个名为“df”的数据集。

您可以:选项一:写两次:

df.write.(...).option("header", "false").csv(....)
df.take(1).option("header", "true").csv() // as far as I remember, someone had problems with saving DataFrame without rows -> you must write at least one row and then manually cut this row using normal Java or Python file API

或者您可以使用 header = true 编写一次,然后使用普通 Java API 手动剪切 header 并将其放入新文件中

关于python - Pyspark - 将数据帧写入 2 个不同的 csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46199065/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com