gpt4 book ai didi

apache-spark - Spark中RDD和批处理的区别?

转载 作者:行者123 更新时间:2023-12-04 04:59:43 25 4
gpt4 key购买 nike

RDD 是跨集群节点分区的元素集合。它是核心组件和抽象。

批次: SparkStreaming API 简单地将数据分成批次,也就是批次相同的 Streaming 对象/元素集合。基于需求,以基于时间的批处理窗口和基于密集在线事件的批处理窗口形式定义的一组批处理。

Rdd 和批处理之间到底有什么区别?

最佳答案

RDD s 和batches 在Spark 中本质上是不同但相关的东西。
正如问题中提到的,RDD s 是一个基本的 Spark 概念,因为它们构成了 Spark 中分布式计算的基本数据结构。

RDD[T] s 是 [T] 类型元素的虚拟集合分布在集群中的分区上。

在 Spark Streaming 中,“批处理”是在 batchInterval 期间收集数据的结果。时间。数据以“块”的形式收集,块的大小由spark.streaming.blockInterval决定。配置参数。

这些块被提交给 Spark Core 引擎进行处理。每个批次的块集变成一个 RDD每个块是一个 RDD 分区。

说批次和 RDD 是不正确的。 s 是一样的。 Spark Streaming 的一批数据在提交给 Spark Core 进行处理时成为 RDD。

关于apache-spark - Spark中RDD和批处理的区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33438168/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com