gpt4 book ai didi

python - SaveAsTextFile 不写

转载 作者:可可西里 更新时间:2023-11-01 14:23:58 25 4
gpt4 key购买 nike

我在 Python 中工作,使用 Hadoop 和 PySpark。我在代码末尾输出了一个 RDD(我已经验证它输出正确),我正在尝试使用 .saveAsTextFile() 方法将其保存为文本文件。代码运行完成并生成一个 _success 文件,但目录的其余部分为空。

outputFile='hdfs:///data/withCoalesce'
combinedTable= all_transactions_reduced.join(credit_payments_reduced)
combinedTableMapped= combinedTable.map(lambda x: (x[0], list(x[1][0])+x[1][1]))
combinedTableMapped.coalesce(1, shuffle=True).saveAsTextFile(outputFile)

当我进入 Hadoop FS 并查看目录中的文件时,它们都是空的。有谁知道为什么会这样?谢谢!

最佳答案

saveAsTextFile() 调用之前,使用 collect() 检索和打印数据。这应该告诉您 RDD 中到底是什么。最简单的解释是 RDD 是否为空。

为什么要执行 coalesce(1)?这会阻止您处理大量数据。我建议不要这样做。但是,如果数据很小,并且您真的想要一个文件,您可以只使用 collect() 并从驱动程序写入文件,而不是使用 saveAsTextFile().

关于python - SaveAsTextFile 不写,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28003231/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com