gpt4 book ai didi

apache-spark - 任务的序列化结果的总大小大于spark.driver.maxResultSize

转载 作者:行者123 更新时间:2023-12-04 00:59:45 26 4
gpt4 key购买 nike

美好的一天。

我正在运行用于解析某些日志文件的开发代码。如果我尝试解析更少的文件,我的代码将流畅运行。但是随着我需要解析的日志文件数量的增加,它将返回不同的错误,例如too many open filesTotal size of serialized results of tasks is bigger than spark.driver.maxResultSize

我试图增加spark.driver.maxResultSize,但错误仍然存​​在。

您能给我有关如何解决此问题的任何想法吗?

谢谢。

最佳答案

Total size of serialized results of tasks is bigger than spark.driver.maxResultSize意味着当执行者试图将其结果发送给驱动程序时,它超过了spark.driver.maxResultSize。上面@mayank agrawal提到了可能的解决方案,以使其不断增加直到您开始工作为止(如果执行程序尝试发送太多数据,则不建议使用此解决方案)。

我建议您查看您的代码,看看数据是否歪斜,这使执行程序之一可以执行大部分工作,从而导致大量数据输入/输出。如果数据不正确,可以尝试repartitioning

对于太多打开文件的问题,可能的原因是Spark可能在改组之前创建了许多中间文件。如果在执行程序/高度并行性或唯一键中使用了太多内核,则可能会发生(在您的情况下,可能的原因-输入文件数量庞大)。要研究的一种解决方案是通过此标志整合大量中间文件:--conf spark.shuffle.consolidateFiles=true(当您执行spark-submit时)

需要检查的另一件事是该线程(如果该线程与您的用例相似):https://issues.apache.org/jira/browse/SPARK-12837

关于apache-spark - 任务的序列化结果的总大小大于spark.driver.maxResultSize,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46763214/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com