gpt4 book ai didi

scala - Spark 在多节点上将 Parquet 写入HDFS非常慢

转载 作者:行者123 更新时间:2023-12-02 22:02:35 26 4
gpt4 key购买 nike

我用--master local[*]运行了星火提交,

但是当我在多节点群集上运行spark提交时--master ip of master:port --deploy-mode client:
我的应用程序运行良好,直到将HDFS写入拼花地板为止,它没有停止,没有错误消息,什么也没有运行。
我在应用程序中检测到阻塞部分,它是:

resultDataFrame.write.parquet(path) 

我试过了

resultDataFrame.repartition(1).write.parquet(path)

但还是一样

预先感谢您的帮助

最佳答案

我可以看到您正在尝试将master用作local [*],它将在本地模式下运行spark作业,并且无法使用群集资源。

如果您正在集群上运行spark作业,则可以查找spark提交选项,例如master作为yarn和部署模式为cluster,这是下面提到的命令。

spark-submit --class **--master yarn --deploy-mode cluster ** --conf = ... # other options [application-arguments]



一旦您以yarn master并以群集部署模式运行spark作业,它将尝试利用所有群集资源。

关于scala - Spark 在多节点上将 Parquet 写入HDFS非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53638200/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com