- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在做我的学士期末项目,该项目是关于 Apache Spark Streaming 和 Apache Flink(仅流)之间的比较,我刚刚到达 Flink 文档中的“物理分区”。问题是在这个文档中它没有很好地解释这两个转换是如何工作的。直接从文档:
shuffle()
: Partitions elements randomly according to a uniform distribution.
rebalance()
: Partitions elements round-robin, creating equal load per partition. Useful for performance optimisation in the presence of data skew.
shuffle()
> 均匀分布和
rebalance()
> 循环)并随机分配数据。然后我推断出
rebalance()
以更好的方式分发数据(“每个分区的负载相等”),因此任务必须处理相同数量的数据,但
shuffle()
可能会创建越来越小的分区。
那么,在哪些情况下您可能更喜欢使用 shuffle()
比rebalance()
?
rebalance()
需要一些处理时间,因此在某些情况下,它可能需要更多的时间来进行重新平衡,而不是在 future 的转换中改进的时间。
shuffle()
作品。
最佳答案
正如文档所述,shuffle
将随机分布数据,而 rebalance
将以循环方式分发数据。后者效率更高,因为您不必计算随机数。此外,根据随机性,您最终可能会得到某种不那么均匀的分布。
另一方面,rebalance
将始终开始将第一个元素发送到第一个 channel 。因此,如果你只有很少的元素(元素比子任务少),那么只有一些子任务会接收元素,因为你总是开始将第一个元素发送到第一个子任务。在流的情况下,这最终应该无关紧要,因为您通常有一个无界的输入流。
这两种方法存在的实际原因是历史原因。 shuffle
首先介绍。为了使批处理与流式 API 更加相似,rebalance
然后被介绍。
关于bigdata - Apache Flink 中 shuffle() 和 rebalance() 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43956510/
我只是想了解我们应该如何规划 NiFi 实例的容量。 我们有一个 NiFi 实例,它有大约 500 个流。因此,NiFi canvas 上启用的处理器总数约为 4000。我们同时运行 2-5 个流,不
我试图了解所有数据湖和大数据之间是否存在真正的区别,如果你检查这两个概念都像一个大存储库,它会保存信息直到有必要,那么,我们什么时候可以说我们正在使用大数据还是数据湖? 提前致谢 最佳答案 我不能说我
我在挖掘有关物流运输的大型(100K 条目)数据集时遇到困难。我有大约 10 个名义字符串属性(即城市/地区/国家名称、客户/船舶识别码等)。除此之外,我还有一个日期属性“出发”和一个比例缩放数字属性
特别是围绕日志计数方法。 最佳答案 我将尝试阐明概率计数器的使用,但请注意,我不是这方面的专家。 目的是仅使用很少的空间来存储计数器(例如使用 32 位整数)来计数非常非常大的数字。 莫里斯提出了维持
我需要多少数据才能使用 Presto?该网站声称它可以查询从千兆字节到 PB 级的数据大小。我了解它是如何用于查询非常大的数据集的,但是有人将它用于数百 GB 的数据吗? 最佳答案 目前,如果您已经有
我目前正在考虑一个小“大数据”项目,我想每 10 分钟记录一些利用率,并将它们写入数据库几个月或几年。 然后我想分析数据,例如通过这些方式: 一天中的哪个时间最好(就低利用率而言)? 正常工作日和周末
我当时正在设置一个 Storm 集群来计算实时趋势和其他统计信息,但是通过允许kafka-spout上次读取的偏移量(kafka-spout的源代码来自此),我在向项目中引入“恢复”功能时遇到了一些问
我们目前正在调查使用多个列族对我们的 bigtable 查询性能的影响。我们发现将列拆分为多个列族并不会提高性能。有没有人有过类似的经历? 关于我们的基准设置的更多细节。此时,我们生产表中的每一行都包
将大量文档添加到 riak 中的最佳方法是什么?假设有数百万条产品记录,这些记录经常更改(价格等),并且我们希望非常频繁地更新所有这些记录。有没有比在 Riak 中一一替换 key 更好的方法?一次批
我有一个 Kusto 表,想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换,因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好,然后
我有一个 Kusto 表,想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换,因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好,然后
大数据的DAG(有向无环图)执行很常见。我想知道 Apache Flink 如何实现迭代,因为该图可能是循环的。 最佳答案 如果Flink执行迭代程序,数据流图不是DAG,而是允许循环。但是,这个循环
我们正在简化 Airflow 代码库的构建/部署管道。 有没有人有使用 CI/CD 工具为 Apache Airflow 构建和部署管道的经验? 您如何在不同环境(如测试、暂存、生产等)中部署您的 A
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我将记录作为单个空格分隔的字符串。所以我正在解析它们并使用更新策略将它们摄取到目标表中。但是,我想检查一些条件,例如确保列值(字符串)的长度是否为 4,如果不是,则将其从摄取中删除。是否可以在 Kus
目前,我只能看到使用以天为单位指定的保留期的示例。我们可以在 Kusto 中以年为单位指定表的保留期吗?我的意思是下面的命令会将保留期设置为 10 年吗?.alter-merge table Tabl
为基于 Web 的应用程序存储大量数据的最佳方式是什么? 每条记录只有 3 个字段,但每天大约有 1.44 亿条记录 - 存储一个月 - 总共 4,464,000,000 条记录。我们四舍五入到 50
Hive 中表的分桶和索引之间的主要区别是什么? 最佳答案 主要区别在于目标: 索引 The goal of Hive indexing is to improve the speed of quer
本文整理了Java中com.bigdata.service.geospatial.ZOrderRangeScanUtil类的一些代码示例,展示了ZOrderRangeScanUtil类的具体用法。这些
我想知道查询并行性在 apache ignite 中是如何实现的。结果数字与没有并行性的结果完全不同。谢谢 最佳答案 在没有查询并行性的情况下,Ignite 在节点之间拆分查询执行:为每个节点映射请求
我是一名优秀的程序员,十分优秀!