gpt4 book ai didi

apache-spark - Spark驱动程序如何序列化发送给执行者的任务?

转载 作者:行者123 更新时间:2023-12-04 03:17:03 26 4
gpt4 key购买 nike

RDD通过对象中用户定义的函数/方法进行一系列转换。这些功能以任务的形式传递给执行者。
这些任务是在spark-core中定义的Scala类的实例。

我假设用户定义的函数/方法被包装在一个任务对象中并传递给执行者。

  • 执行者如何知道需要使用什么方法
    执行哪个包装在任务类中?
  • 序列化在这里到底有什么帮助?
  • spark上下文如何读取用户代码并将其转换为任务?
  • 最佳答案

    一点解释:

    How do the executors know what is the method that needs to be executed which is wrapped in the task class?



    执行者收到带有任务描述的RPC消息,请参见下文

    How exactly is the serialization helpful here?



    是的,该任务包含由ClosureSerializer序列化的代码

    How does the spark context read the user code and convert it to tasks?



    在REPL环境中,将用户代码 Spark 编译为类文件并放在文件服务器上,执行程序实现一个自定义的类加载器,该类加载器从驱动程序侧的文件服务器加载类。该类实际上是一个针对记录迭代器运行的函数

    关于apache-spark - Spark驱动程序如何序列化发送给执行者的任务?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31366467/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com