apache-spark - Spark Streaming 中队列流的功能和执行？-6ren

apache-spark - Spark Streaming 中队列流的功能和执行？

转载作者：行者123 更新时间：2023-12-01 19:34:33

Spark StreamingContext 中的queueStream 函数有什么作用。根据我的理解，它是一个队列，用于对传入的 DStream 进行排队。如果是这种情况，那么它是如何在具有许多节点的集群中处理的。每个节点是否都有此 queueStream 并且 DStream 在集群中的所有节点之间进行分区？此 queueStream 在集群设置中如何工作？

我已阅读 [Spark Streaming 文档][ https://spark.apache.org/docs/latest/streaming-programming-guide.html#basic-sources 中的以下解释), 但我没有完全理解。请帮助我理解它。

Queue of RDDs as a Stream: For testing a Spark Streaming application with test data, one can also create a DStream based on a queue of RDDs, using streamingContext.queueStream(queueOfRDDs). Each RDD pushed into the queue will be treated as a batch of data in the DStream, and processed like a stream.

val myQueueRDD= scala.collection.mutable.Queue[RDD[MyObject]]()
val myStream= ssc.queueStream(myQueueRDD)

for(count <- 1 to 100) {
        val randomData= generateData() //Generated random data
        val rdd= ssc.sparkContext.parallelize(randomData) //Creates the rdd of the random data.
        myQueueRDD+= rdd //Addes data to queue.
}

myStream.foreachRDD(rdd => rdd.mapPartitions(data => evaluate(data)))

代码的上述部分将如何在关于不同节点上的分区的 spark streaming 上下文中执行。

最佳答案

QueueInputDStream 用于测试。它使用标准的 scala.collection.mutable.Queue 来存储模仿传入批处理的 RDD。

Does each node will have this queueStream and the DStream is partitioned among all the nodes in the cluster

没有。队列只有一个副本，所有数据分发都由 RDDs 处理。 compute 逻辑非常简单，dequeue(oneAtATime 设置为 true)或union当前队列的时间(oneAtATime 设置为 false)。这通常适用于 DStreams - 每个流只是一个 RDD 序列，它提供数据分发机制。

虽然它仍然遵循 InputDStream API，但从概念上讲，它只是一个本地集合，您可以在每个 batchDuration 期间从中获取元素。

关于apache-spark - Spark Streaming 中队列流的功能和执行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45768115/

文章推荐： node.js - TypeError : req. session.destroy 不是函数 - Express.js

文章推荐： delphi - Twitter - 无法使用 OAuth 进行身份验证 (401) 错误

文章推荐： Java:将日期 2011-Jan-01 转换为 dd-MM-yyyy 格式

Java flatmap Iterator, Stream>> 到 Pair, Stream>
我正在尝试实现具有以下签名的方法: public static Pair, Stream> flatten(Iterator, Stream>> iterator); 该方法的目标是将每种流类型展平

stream - flutter : stream two Streams into a single screen?
我有两个流从两个不同的 api 获取。 Stream get monthOutStream => monthOutController.stream; Stream get resultOutStre

java - Stream.of(int[]) 返回 Stream 而 Stream.of(String[]) 返回 Stream 为什么？
Stream.of(int[])返回 Stream ，而 Stream.of(String[])返回 Stream . 为什么这两种方法的行为不同？两者都应该返回 Stream和 Stream或 St

dart - 将 Stream> 转换为 Stream
我正在使用 rxdart在 dart 中处理流的包。我被困在处理一个特殊的问题上。请看一下这个虚拟代码: final userId = BehaviorSubject(); Stream getSt

stream - Streaming 在 Streaming SIMD Extensions (SSE) 中代表什么？
我到处都找遍了，还是没弄明白。我知道你可以用流建立两个关联: 用于支持数据存储的包装器意味着作为消费者和供应商之间的抽象层数据随着时间的推移变得可用，而不是一次全部 SIMD 代表单指令，多数据；在

java - 创建 Stream 后更改 Stream 源时 Stream 的行为
考虑下面的代码: List l=new ArrayList<>(); l.add(23);l.add(45);l.add(90); Stream str=l.stream

webpack - ./node_modules/stream-browserify/node_modules/readable-stream/lib/internal/streams/stream-browser.js 错误 : Can't resolve 'events'
我有一个大型主干/requirejs 应用程序，我想迁移到 webpack，最新的“webpack”:“^4.27.1”，但我遇到了一个我无法解决的错误。我一直在阅读 https://webpack

java.io.EOFException : no more data available - expected end tag to close start tag 异常
我正在使用 xmpp 开发聊天应用程序，根据我们的要求，我们有三台服务器 Apache Tomcat 7、ejabbered 2.1.11 和 mysql 5.5， to run xmppbot on

scala - 将 java.util.stream.Stream 转换为 Scala Stream
我知道如何使用 Java 库，并且我可以编写一些循环来执行我需要的操作，但问题更多，为什么 scala.collection.JavaConverters 中没有任何内容或scala.collecti

java - 使用 Stream stream = Arrays.stream(words) 过滤唯一字数；
我正在尝试创建一个单一的衬里，它应该计算一个非常长的文本文件中的唯一单词。独特的词例如:márya fëdorovna scarlet-liveried,...所以基本上都是非英语词。我的问题是我的

c# - Stream.Dispose 是否总是调用 Stream.Close(和 Stream.Flush)
如果我有以下情况: StreamWriter MySW = null; try { Stream MyStream = new FileStream("asdf.txt"); MySW =

java-8 - Java 8 Streams : how can i stream another stream. 我如何将代码转换为java8流
有人可以帮我将以下语句转换为 Java8: 我有一个像这样的 HashMap : private Map, List>> someMap; 我想在java8中转换以下逻辑: private Strin

java-8 - Java 8 Streams : how can i stream another stream. 我如何将代码转换为java8流
有人可以帮我将以下语句转换为 Java8: 我有一个像这样的 HashMap : private Map, List>> someMap; 我想在java8中转换以下逻辑: private Strin

java - 为什么具有短路操作的并行 Java Stream 会评估 Stream 的所有元素，而顺序 Stream 则不会？
考虑两种测试方法parallel()和sequential(): @Test public void parallel() throws Exception { System.ou

node.js - NodeJS : Stream. pipe(Stream) 有效但 Stream.read() 无效
我是 NodeJS 的新手，我基本上想做的是通过 HTTP 将 .pdf 上传到我的服务器。我正在使用 POST rquest 来处理 Content-Type multipart/form-data

c# - MemoryStream.WriteTo(Stream destinationStream) 与 Stream.CopyTo(Stream destinationStream)
哪个更好:MemoryStream.WriteTo(Stream destinationStream) 或 Stream.CopyTo(Stream destinationStream)？？我正在谈

stream - 延迟 Tokio Stream
给定一个 Stream，我想创建一个新的 Stream，其中的元素在它们之间有时间延迟。我尝试使用 tokio_core::reactor::Timeout 和 Stream 的 and_then

Spring Cloud Stream Kafka Streams Binder KafkaException : Could not start stream: 'listener' cannot be null
我是 Kafka Streams 和 Spring Cloud Stream 的新手，但在将集成相关代码移动到属性文件方面已经阅读了有关它的好东西，因此开发人员可以主要专注于事物的业务逻辑方面。这里

node.js - utility.pump(streamA, stream) 和 stream.pipe(stream) 有什么区别？
源代码看起来非常相似:pump , pipe .为什么我要使用一个而不是另一个？一个只是另一个的更好版本吗？最佳答案 Stream.pipe 现在显然是自 0.3.x 以来的首选方法，因此尽可能尝试

java - 使用 Java 中的 Streams/Lambda 将 Stream> 转换为 T[][]
我正在寻找是否有更好的方法来解决我不得不使用这些签名的困境(注意:由于 Spock 测试，T[][] 是必需的，我提供 T[][] 作为数据提供商) 我的方法签名是: public T[][] cr

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

《深入理解Mybatis原理》Mybatis中的缓存实现原理

Hugo｜30分钟搭建完整的个人博客

Qwen2ForSequenceClassification文本分类实战和经验分享

KernelMemory让SK记住更多内容

elsa工作流-调度(安排后台作业)

find_package()使用指南

方法引用与lambda底层原理&Java方法引用、lambda能被序列化么？

Prometheus入门

G1原理—5.G1垃圾回收过程之MixedGC

深入解析子查询（SUBQUERY）：增强SQL查询灵活性的强大工具

首页

博学

6Ren·AI

商城

apache-spark - Spark Streaming 中队列流的功能和执行？