gpt4 book ai didi

python - 如何将 PySpark 中的表数据框导出到 csv?

转载 作者:IT老高 更新时间:2023-10-28 20:26:27 30 4
gpt4 key购买 nike

我使用的是 Spark 1.3.1 (PySpark),并且我使用 SQL 查询生成了一个表。我现在有一个对象是 DataFrame。我想将这个 DataFrame 对象(我称之为“表”)导出到一个 csv 文件,以便我可以操作它并绘制列。如何将 DataFrame “表”导出到 csv 文件?

谢谢!

最佳答案

如果数据帧适合驱动程序内存并且您想保存到本地文件系统,您可以转换 Spark DataFrame本地Pandas DataFrame使用 toPandas方法,然后简单地使用 to_csv:

df.toPandas().to_csv('mycsv.csv')

否则你可以使用spark-csv :

  • Spark 1.3

    df.save('mycsv.csv', 'com.databricks.spark.csv')
  • Spark 1.4+

    df.write.format('com.databricks.spark.csv').save('mycsv.csv')

在 Spark 2.0+ 中,您可以直接使用 csv 数据源:

df.write.csv('mycsv.csv')

关于python - 如何将 PySpark 中的表数据框导出到 csv?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31385363/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com