gpt4 book ai didi

apache-flink - Apache Flink : guideliness for setting parallelism?

转载 作者:行者123 更新时间:2023-12-03 09:32:06 26 4
gpt4 key购买 nike

我正在尝试获得一些简单的规则或指导方针来设置什么值
运算符(operator)或工作
并行性。在我看来,它应该是一个数字 <= 的数量
可用任务
插槽?

例如,假设我有 2 台任务管理器机器,每台机器有 4 个任务槽。
假设集群上没有其他作业在运行,我会设置并行度吗
用于操作
像过滤器和映射到 8?如果不是,合理的数字是多少?

如果您请求的并行度比任务槽多,会发生什么?在
上面的例子,
如果我将操作的并行度设置为 12,会发生什么?我假设它
只会使用尽可能多的
可用吗?

此外,您似乎不想将并行性硬编码为
你的源代码,因为
当您提交时,您可能希望对可用的任务槽有一个大致的了解
工作?
您是否应该为所有运算符设置大致相同或不同的并行度
值(value)观,以及什么将指导
那个决定?

谢谢!

最佳答案

一般来说,最好不要对并行性进行硬编码,因为决定将多少资源分配给您的作业通常是操作的责任。此外,资源需求通常取决于您的 SLA 和实际工作负载,因此与程序无关,应单独处理。
Flink 1.5.0在 Yarn 或 Mesos 上运行时,您只需要决定作业的并行度,系统将确保它启动足够多的 TaskManagers 和足够的槽来执行您的作业。这完全是动态发生的,您甚至可以在运行时更改作业的并行度。
如果您使用的是独立模式,或者您的 Yarn/Mesos 集群没有足够的资源/插槽可用,那么作业将失败并显示 NoResourceAvailableException如果系统无法获得所需的插槽。

关于apache-flink - Apache Flink : guideliness for setting parallelism?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50719147/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com