gpt4 book ai didi

python - 将 RDD 写入带有拆分列的 csv

转载 作者:行者123 更新时间:2023-12-01 03:17:07 25 4
gpt4 key购买 nike

我刚刚开始使用 Pyspark,希望将文件保存为 csv 而不是文本文件。我尝试使用在 Stack Overflow 上找到的几个答案,例如

def toCSVLine(data):
return ','.join(str(d) for d in data)

然后

 rdd = lines.map(toCSVLine)
rdd.saveAsTextFile("file.csv")

它的工作原理是我可以在 Excel 中打开它,但是所有信息都放入电子表格的 A 列中。我希望能够将rdd中的每一列(例如(“ID”,“评级”)放入excel中的单独列中,这样ID将在A列中,评级将在B列中。有吗有办法做到这一点吗?

最佳答案

如果您使用的是 Spark >= 2.0 并假设您的 RDD 具有表格格式(如果您想将其保存为 CSV,则应该如此),一种方法可能是首先从 RDD 创建一个 Dataframe,然后使用 DataFrameWriter导出到 CSV。

from pyspark.sql import SparkSession

spark = SparkSession(sc).getOrCreate()

df = spark.createDataframe(rdd)

df.write.csv("/path/to/file.csv", sep=',', header=True)

查看 the pyspark.sql docs 以获取其他选项和更多信息。

关于python - 将 RDD 写入带有拆分列的 csv,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42373826/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com