gpt4 book ai didi

Python Spark 数据帧 : Better way to export groups to text file

转载 作者:太空狗 更新时间:2023-10-29 17:51:02 26 4
gpt4 key购买 nike

我想将数据导出到单独的文本文件;我可以用这个 hack 来做到这一点:

for r in sqlContext.sql("SELECT DISTINCT FIPS FROM MY_DF").map(lambda r: r.FIPS).collect():
sqlContext.sql("SELECT * FROM MY_DF WHERE FIPS = '%s'" % r).rdd.saveAsTextFile('county_{}'.format(r))

使用 Spark 1.3.1/Python 数据帧的正确方法是什么?我想在一份工作中完成,而不是 N(或 N + 1)份工作。

可能是:

saveAsTextFileByKey()

最佳答案

Spark 通常没有带多个输出的 RDD 操作。但是对于写文件有一个很好的技巧:Write to multiple outputs by key Spark - one Spark job

关于Python Spark 数据帧 : Better way to export groups to text file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30673144/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com