gpt4 book ai didi

apache-spark - 在不减少分区数量的情况下限制单个 RDD 的最大并行度

转载 作者:行者123 更新时间:2023-12-02 04:36:04 46 4
gpt4 key购买 nike

是否可以在不改变实际分区数的情况下,在RDD层面限制最大并发任务数?用例是在不减少分区数量的情况下,不要让具有太多并发连接的数据库不堪重负。减少分区数会导致每个分区变得更大,最终变得难以管理。

最佳答案

我将其重新发布为“答案”,因为我认为它可能是最不脏的黑客,可能会得到您想要的行为:

使用 mapPartitions(...) 调用,并在映射函数的开头,对全局可见状态(可能是 REST 调用?)进行某种阻塞检查,仅允许在任何给定时间成功进行一些最大数量的检查。由于这会延迟完整的 RDD 操作,您可能需要增加 RDD 完成时的超时以防止错误

关于apache-spark - 在不减少分区数量的情况下限制单个 RDD 的最大并行度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42492682/

46 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com