apache-spark - 如何一次读取流数据集并输出到多个接收器？-6ren

apache-spark - 如何一次读取流数据集并输出到多个接收器？

转载作者：行者123 更新时间：2023-12-04 05:36:29

29

4

我有一个 Spark Structured Streaming Job，它从 S3 读取数据，转换数据，然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器。

目前，我正在做 readStream一次又一次writeStream.format("").start()两次。这样做时，Spark 似乎从 S3 源读取数据两次，每个接收器一次。

是否有更有效的方法来写入同一管道中的多个接收器？

最佳答案

Currently, I am doing readStream once and then twice writeStream.format("").start().

您实际上创建了两个单独的流查询。 load -part 是描述第一个(也是唯一一个)流媒体源。这在执行方面没有任何作用。

When doing so it seems that Spark read the data twice from S3 source, per each sink.

这是描述 Spark Structured Streaming 的查询如何工作的最正确方法。接收器的数量对应于查询的数量，因为一个流式查询可以恰好有一个流式接收器(请参阅位于任何流式查询后面的 StreamExecution)。

您还可以检查线程数(使用 jconsole 或类似方法)，因为 Structured Streaming 使用一个 microBatchThread每个流式查询的线程(请参阅 StreamExecution )。

Is there a more efficient way to write to multiple sinks in the same pipeline?

是不是在 Spark Structured Streaming 的当前设计中是可能的。

关于apache-spark - 如何一次读取流数据集并输出到多个接收器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46295205/

29

4

0

文章推荐： Elasticsearch 搜索土耳其语字符

文章推荐： python - 当对象在列表或字典中时，__str__ 方法不起作用

Chromecast 接收器，如何在没有明确的转换发送器请求的情况下加载媒体？
媒体存在于外部服务器上，我想在我的 Actor 接收器上播放该媒体( Google's CastReferencePlayer 的修改版本)。接收器与该服务器持续通信(通过长轮询)，并在需要播放某个媒
python - PyQt5 接收器
我想将我的 PyQt4 应用程序移植到 PyQt5，但遇到了一个微妙的问题。有时我会检查自定义 QThread 对象 (worker) 是否仍然连接了一些特定的信号，我在 PyQt4 中已经这样做了
algorithm - 接收器-发送器网络的最低成本
假设我们有 n 台设备，n 为偶数。每个设备都可以作为发射器 (T) 或接收器 (R)。对于每个设备 i，我们都给定了 2 个数字，Ti 和 Ri。 Ti 是设备用作发射器时的成本，Ri 是设备用作接
android - 在airplay中将android实现为服务器(接收器)
我想在 android 中创建 airplay，其中我的 android 设备将用作 airplay 服务器(接收器)，而 iPhone 设备将用作接收器。我在我的应用程序中使用了 jmdns，它是
用于多项操作的 Android 接收器？
简单问题 - 我可以将单个 BroadcastReceiver 注册到多个 Intent 操作吗？这是我正在考虑的: 所以在 myRecei
Android 接收器 - 多个应用程序中接收器的名称和操作相同
假设我在 2 个应用程序(应用程序 A 和应用程序 B)的 list 中有以下接收器: 在每个应用程序中，我想创建一个 PendingIntent(如果不存在
chromecast - CAF 接收器，关闭处理
我正在尝试向接收方应用程序的关闭事件添加逻辑，但每次发送方断开连接时，调试器都会关闭并且不会执行任何逻辑(例如发送一些 HttpRequest)。我的一段代码: this.context.addEve
rabbitmq - 如何编写自定义水槽 OG 接收器
我们正在使用flume，我需要将一些日志消息收集到rabbitmq 中。我找到了一个来源 implementation从rabbitmq读取消息，但我找不到可以将消息写入rabbit的接收器。所以我想
.net - 远程处理和缺少 channel 接收器
我遇到了一个远程异常: “这个远程代理没有 channel 接收器，这意味着服务器没有注册的服务器 channel 正在监听，或者这个应用程序没有合适的客户端 channel 来与服务器通信。” th
webrtc - 创建 WebRTC 接收器
我是 WebRTC 的新手，并试图弄清楚如何在浏览器之外创建一个程序，该程序接收 WebRTC 音频流并将其输出到扬声器上。是否有适用于 Java 或 C# 的 WebRTC 库？该接收器将在 l
Spring Boot AMQP 接收器
我正在创建一个简单的 Spring Boot 应用程序，我想接收发送到 AMQP(Rabbit)交换(来自另一个应用程序)的消息。我收到一条错误消息，指出我要接收的队列不存在。当我看 http://
jboss - 没有可用于处理的 EJB 接收器
我将 EJB 3.0 与 JBoss AS 7.1.1 Final 一起使用。当我尝试将客户端连接到服务器时出现此错误: Aug 15, 2012 12:05:00 PM org.jboss.ejb.
Chromecast 无法接收自定义消息(CAF 接收器)
我正在为 Google Cast SDK 使用 React Native 包装器，但无法从发送方向接收方发送消息。我能够转换媒体或暂停并恢复它。问题仅在于自定义消息。我的自定义消息监听器永远不会在接收
c# - 单元测试自定义 Serilog 接收器
我正在开发自定义 Serilog 接收器，它继承自 PeriodicBatchingSink 并调用我的网络服务将数据写入数据库，使用类似于 Serilog.Sinks.Seq 的模式。使用此代码作为
android FM 接收器 - 芯片组信息
我想为安卓手机开发一个定制的 FM radio 应用程序，里面有 FM 接收芯片。通过研究，我发现 FM 接收器通常由 BroadComm 开发。主要的安卓手机制造商——三星、HTC、索尼爱立信是
android - 根据偏好的 Intent 接收器
我的 android list 中有一个 Intent 接收器，但我想让用户有机会选择他/她是否希望应用程序在特定状态下自动启动。到目前为止，我一直在使用带有广播接收器的服务，但我真的很想删除这个服务
android - 屏幕关闭时调用 BroadCast 接收器
我正在做一个如果我们摇动手机就锁屏的应用程序，我已经写了屏幕关闭的代码，但现在的问题是我需要一个广播接收器来检查屏幕是关闭还是打开，我怎么能做吗？最佳答案如果您需要在特定时刻检查屏幕是否关闭或打开
php - 多种形式和一个 PHP 接收器
我让 MySQL 在一页上生成具有相同操作和提交按钮的表单。表格的数量各不相同。它们在提交时都调用同一个 PHP 文件。另外，我有一个 PHP 文件，它在提交时收集数据。请参见下面的示例。问题是当提
android - 何时取消注册 LocalBroadcastManager 接收器？
谁能给我一个例子，说明如何在 Activity 类中正确取消注册 LocalBroadcastManager 接收器？ Android 开发人员培训建议这样做: @Override publ
ios - 接收器 ... 没有标识符错误的 segue
有问题的代码: func tableView(tableView: UITableView, didSelectRowAtIndexPath indexPath: NSIndexPath) {

首页

博学

6Ren·AI

商城

apache-spark - 如何一次读取流数据集并输出到多个接收器？