gpt4 book ai didi

apache-spark - 如何调试 Spark 工作线程上的映射函数中的错误?

转载 作者:行者123 更新时间:2023-12-02 01:52:23 30 4
gpt4 key购买 nike

我是 Spark 新手,正在努力寻找自己的方法。

我有一个 Spark 应用程序,它在数据集上运行复杂的 map 函数。此 map 功能可能会因主要与数据相关的原因而失败。我怎样才能获得一些关于问题所在的有意义的信息?我不知道从哪里开始。

非常感谢!

最佳答案

如果您想编写单元测试,您可以从集合生成数据集,使用映射函数对其进行映射,并使用您最喜欢的测试套件通过集合测试结果。

如果你使用 PySpark,我真的不知道如何调试 Spark Job,但是使用分布式计算引擎, Debug模式总是一团糟,所以我什至认为不值得探索这条路径。

在我的公司,当我们想要测试特定函数的逻辑时,我们通常会进行单元测试,所以你应该可以开始了。

这个答案应该涵盖您所需要的:How do I unit test PySpark programs?

关于apache-spark - 如何调试 Spark 工作线程上的映射函数中的错误?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39890529/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com