gpt4 book ai didi

apache-spark - 如果单个文件大于 YARN - SPARK 中映射操作中的执行程序,会发生什么情况?

转载 作者:行者123 更新时间:2023-12-04 05:24:14 25 4
gpt4 key购买 nike

我正在研究一个解决方案,其中驱动程序将读取 xml 文件,然后我将从中获取一个 HDFS 文件路径,该路径将在 map 操作中读取。我在这里几乎没有问题。由于map操作会在容器中进行(Container will be allocated while starting the job)。

  1. 什么是单一输入文件大于一个执行者。由于文件未在驱动程序中读取,因此无法分配更多资源?或者应用程序主机将从资源管理器获得更多内存?

非常感谢任何帮助。

最佳答案

What is the single input file is greater than a executor?

由于文件在 HDFS 中,Spark 将在 HDFS 中为 1 个 block 创建 1 个分区。每个分区都将在一个 Worker 中处理。

如果文件有很多 block 不能一次计算,那么 spark 确保一旦资源空闲(完成阶段转换后)将计算挂起的分区。

关于apache-spark - 如果单个文件大于 YARN - SPARK 中映射操作中的执行程序,会发生什么情况?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41850687/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com