gpt4 book ai didi

benchmarking - Flink 和 Gelly 无法实现高 CPU 利用率

转载 作者:行者123 更新时间:2023-12-04 05:31:28 29 4
gpt4 key购买 nike

我一直在尝试 Flink 流媒体一段时间,使用基准测试,如 Yahoo 流媒体基准:https://github.com/yahoo/streaming-benchmarks这应该给系统带来压力,但我从未达到令人满意的 CPU 利用率 - 事实上,使用所有可用的系统核心(并行度 = 节点*核心)和每个核心一个 TaskManager 插槽,它主要低至约 25%。

最近,我开始使用 Gelly,Flink 的图形 API,使用一些提供的示例算法(例如 Pagerank),批处理数据集从数万到数亿个顶点。

我占用了四个 TaskManager,每个有 32 个内核,并且按照我设置的文档的建议 taskmanager.numberOfTaskSlots: 32parallelism.default: 128 .

即使我增加这些值,平均 CPU 使用率也不会超过 40%。因此,由于我的资源没有得到充分利用,我的性能很低。

我还想指出这样一个事实,在某些情况下,我注意到较低的并行级别(和 CPU 利用率)具有更好的性能。

我错过了什么?

最佳答案

源中具有更多唯一键和更多聚合运算符的数据越多,您的 CPU 水平就越高。例如,我每秒有 250k 条消息进入 kafka(flink 源每秒读取尽可能多),具有近 170K 个唯一键、5 分钟滚动窗口和每条消息 15 个聚合。我有一个 3 节点、16 核的 flink 集群,源并行度为 15,聚合并行度为 48,接收器并行度为 3。我的 CPU 使用率在每个节点中始终保持在 85-90% 左右。

您可以输入更多消息,并复制聚合逻辑以对每条消息执行更多操作。尝试从每条消息中获取更多唯一键。

关于benchmarking - Flink 和 Gelly 无法实现高 CPU 利用率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48317438/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com