gpt4 book ai didi

amazon-web-services - Spark - "spark.deploy.spreadOut = false"可以在 S3 上提供性能优势

转载 作者:可可西里 更新时间:2023-11-01 16:36:02 26 4
gpt4 key购买 nike

我了解将“spark.deploy.spreadOut”设置为 true 可以使 HDFS 受益,但是对于 S3,设置为 false 是否比 true 更有优势?

最佳答案

如果您正在运行 Hadoop 和 HDFS,那么使用该属性适用的 Spark Standalone 调度程序不会对您有好处。相反,您应该运行 YARN,并且 ResourceManager 确定执行程序的分布方式

如果您在 EC2 中运行独立调度程序,则设置该属性会有所帮助,默认值为 true。

换句话说,你从哪里读取数据不是这里的决定因素,master 的部署模式是

更好的性能优势将来自您尝试读取的文件数量以及您以何种格式存储数据

关于amazon-web-services - Spark - "spark.deploy.spreadOut = false"可以在 S3 上提供性能优势,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52516503/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com