gpt4 book ai didi

apache-spark - Spark 使用 python : How to resolve Stage x contains a task of very large size (xxx KB). 推荐的最大任务大小为 100 KB

转载 作者:行者123 更新时间:2023-12-03 09:12:05 33 4
gpt4 key购买 nike

我刚刚创建了 range(1,100000) 的 python 列表.

使用 SparkContext 完成以下步骤:

a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])

c = a.zip(b)

>>> [(1, 1), (2, 2), -----]

sum = sc.accumulator(0)

c.foreach(lambda (x, y): life.add((y-x)))

这给出了如下警告:

ARN TaskSetManager:第 3 阶段包含一个非常大的任务 (4644 KB)。建议的最大任务大小为 100 KB。

如何解决此警告?有没有办法处理大小?而且,它会影响大数据的时间复杂度吗?

最佳答案

扩展@leo9r 评论:考虑不使用 python range ,但是 sc.range https://spark.apache.org/docs/1.6.0/api/python/pyspark.html#pyspark.SparkContext.range .

因此,您可以避免将大量列表从驱动程序传输到执行程序。

当然,此类 RDD 通常仅用于测试目的,因此您不希望它们被广播。

关于apache-spark - Spark 使用 python : How to resolve Stage x contains a task of very large size (xxx KB). 推荐的最大任务大小为 100 KB,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28878654/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com