- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在做我的学士期末项目,该项目是关于 Apache Spark Streaming 和 Apache Flink(仅流)之间的比较,我刚刚到达 Flink 文档中的“物理分区”。问题是在这个文档中它没有很好地解释这两个转换是如何工作的。直接从文档:
shuffle()
: Partitions elements randomly according to a uniform distribution.
rebalance()
: Partitions elements round-robin, creating equal load per partition. Useful for performance optimisation in the presence of data skew.
shuffle()
> 均匀分布和
rebalance()
> 循环)并随机分配数据。然后我推断出
rebalance()
以更好的方式分发数据(“每个分区的负载相等”),因此任务必须处理相同数量的数据,但
shuffle()
可能会创建越来越小的分区。
那么,在哪些情况下您可能更喜欢使用 shuffle()
比rebalance()
?
rebalance()
需要一些处理时间,因此在某些情况下,它可能需要更多的时间来进行重新平衡,而不是在 future 的转换中改进的时间。
shuffle()
作品。
最佳答案
正如文档所述,shuffle
将随机分布数据,而 rebalance
将以循环方式分发数据。后者效率更高,因为您不必计算随机数。此外,根据随机性,您最终可能会得到某种不那么均匀的分布。
另一方面,rebalance
将始终开始将第一个元素发送到第一个 channel 。因此,如果你只有很少的元素(元素比子任务少),那么只有一些子任务会接收元素,因为你总是开始将第一个元素发送到第一个子任务。在流的情况下,这最终应该无关紧要,因为您通常有一个无界的输入流。
这两种方法存在的实际原因是历史原因。 shuffle
首先介绍。为了使批处理与流式 API 更加相似,rebalance
然后被介绍。
关于bigdata - Apache Flink 中 shuffle() 和 rebalance() 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43956510/
在一个非常令人讨厌的脚本中,我终于开始工作了,实际上我不得不重新平衡搜索者 f.seek(0, 1) 在 f.write() 函数写入任何“卡住”的内容之前。我的意思是我尝试了很多方法来解决这个问题,
本文整理了Java中org.apache.helix.manager.zk.ZKHelixAdmin.rebalance()方法的一些代码示例,展示了ZKHelixAdmin.rebalance()的
我正在做我的学士期末项目,该项目是关于 Apache Spark Streaming 和 Apache Flink(仅流)之间的比较,我刚刚到达 Flink 文档中的“物理分区”。问题是在这个文档中它
我正在使用kafka 0.9.0.1代理和0.9.0.1消费者客户端。我的消费者实例正在消耗处理时间不到 1 秒的记录。其他主要配置是 enable.auto.commit=false session
[19246:0x3c0ba70] 13018753 ms: Scavenge 15929.0 (32800.1) -> 17647.7 (32800.1) MB, 236071.8 / 0.0 m
我关注了一个 excellent step-by-step tutorial for installing Kafka on Linux .在我重新启动 Linux 之前,一切对我来说都很好。重启后,
我想知道 Kafka 流 的行为(我使用的是低级 Java API)。我通过实现接口(interface) org.apache.kafka.streams.processor.Processor 来
我创建了一个主题,我让一个简单的生产者在该主题中发布一些消息 bin/kafka-topics.sh --create --zookeeper localhost:2181 --replicatio
重启broker后,发现一个topic的leader的所有partition都被删除了 全部在经纪人 3 中,我已经设置 imbalance.check.interval.seconds 300,au
我是一名优秀的程序员,十分优秀!