gpt4 book ai didi

apache-spark - Spark的shuffle read和shuffle write有什么区别?

转载 作者:行者123 更新时间:2023-12-03 07:21:19 24 4
gpt4 key购买 nike

我需要运行一个包含大量数据的spark程序。我正在尝试优化 Spark 程序并通过 Spark UI 进行工作并尝试减少 Shuffle 部分。

提到了几个组件,随机读取和随机写入。我可以根据他们的术语理解差异,但我想了解它们的确切含义以及spark的shuffle读/写中的哪一个会降低性能?

我在互联网上搜索过,但找不到有关它们的可靠深入的详细信息,因此想看看是否有人可以在这里解释它们。

最佳答案

来自 UI 工具提示

随机阅读

Total shuffle bytes and records read (includes both data read locally and data read from remote executors

随机写入

Bytes and records written to disk in order to be read by a shuffle in a future stage

关于apache-spark - Spark的shuffle read和shuffle write有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35822123/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com