gpt4 book ai didi

apache-spark - 在 spark 本地模式下从 worker 内部写入文件不会写入?

转载 作者:行者123 更新时间:2023-12-02 04:36:01 24 4
gpt4 key购买 nike

为了在 yarn 集群中运行之前在 pyspark 中开发我的应用程序,我想在本地模式下测试它。为此,我需要从工作节点内部显式写入一些数据,我想我可以使用 hadoop rest api 来做到这一点,以便在集群模式下运行时将文件写入 hdfs。但是在本地模式下运行代码时,如何从工作任务中写入文件?

例如:-

 sparkConf = SparkConf().setAppName("testing").setMaster("local[*]")
sc= SparkContext(conf=sparkConf)

rdd = sc.textFile("file://path to file")
rdd.map(lambda x:x.split("\t")[0],1).reduce(func_to_reduce);

def func_to_reduce(a,b):
//how can i write value of a and b to a file from here
return a+b;

澄清一下:如果我从驱动程序端代码使用 open() 方法写入文件,它会工作,但如果我使用相同的方法从 reduce 函数内部写入文件,则不会。非常感谢任何指导或帮助!!

最佳答案

您必须实际调用一个保存方法,就像您通过 textFile 调用一个加载方法一样。类似于 saveAsTextFile(path)

关于apache-spark - 在 spark 本地模式下从 worker 内部写入文件不会写入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42615324/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com