statistics - 是否可以使用 Spark Streaming 实时更新值？-6ren

statistics - 是否可以使用 Spark Streaming 实时更新值？

转载作者：行者123 更新时间：2023-12-02 03:26:01

24

4

假设我有一个 Double 值流，我想每十秒计算一次平均值。我怎样才能拥有一个不需要重新计算平均值而是更新它的滑动窗口，比方说，删除最旧的 10 秒的部分并仅添加新的 10 秒值？

最佳答案

TL;DR : 使用 reduceByWindow 及其两个函数参数(跳转到代码片段的最后一段)

对您的问题有两种解释，一种是具体的(我如何获得一小时的运行平均值，每 2 秒更新一次)，另一种是一般的(我如何获得以稀疏方式更新状态的计算) .这是一般问题的答案。

首先，请注意有一种方法可以表示您的数据，这样您的平均更新很容易计算，基于 windowed DStream :这将您的数据表示为流的增量构建，具有最大共享。但是，如您所述，重新计算每批的平均值在计算上效率较低。

如果您确实想对可逆的复杂状态计算进行更新，但又不想触及流的构造，可以使用updateStateByKey。 – 但是 Spark 无法帮助您在流中反射(reflect)计算的增量方面，您必须自己管理它。

在这里，您确实拥有一些简单且可逆的东西，并且您没有键的概念。您可以使用 reduceByWindow使用其逆归约参数，使用可以让您计算增量均值的常用函数。

val myInitialDStream: DStream[Float]

val myDStreamWithCount: DStream[(Float, Long)] = 
  myInitialDStream.map((x) => (x, 1L))

def addOneBatchToMean(previousMean: (Float, Long), newBatch: (Float, Long)): (Float, Long) = 
  (previousMean._1 + newBatch._1, previousMean._2 + newBatch._2)

def removeOneBatchToMean(previousMean: (Float, Long), oldBatch: (Float, Long)): (Float, Long) = 
  (previousMean._1 - oldBatch._1, previousMean._2 - oldBatch._2)

val runningMeans = myDStreamWithCount.reduceByWindow(addOneBatchToMean, removeOneBatchToMean, Durations.seconds(3600), Duractions.seconds(2))

您得到一个单元素 RDD 流，每个元素都包含一对 (m, n)，其中 m 是您在 1h 窗口上的运行总和，n 是元素的数量1小时窗口。只需返回(或 map 到)m/n 即可获得平均值。

关于statistics - 是否可以使用 Spark Streaming 实时更新值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30256209/

24

4

0

文章推荐： django - 如何使用 django rest 框架作为移动应用程序的后端

文章推荐： R getReturns > 无法打开 HTTP 状态为 '404 not found'

文章推荐： ruby-on-rails - Open ID Connect 提供商 - 保留 ID token ？

文章推荐： owl - Protege:对象属性限制 1

performance - 实时，低延迟声音合成和快速处理的语言？
Closed. This question is opinion-based。它当前不接受答案。想改善这个问题吗？更新问题，以便editing this post用事实和引用来回答。 2年前关闭。
javascript - 如何在我的网站中获取用户在线状态(实时)
我想显示我的网站上所有用户都在线(实时；就像任何聊天模块一样)。我正在使用下面提到的脚本来执行此操作。 HTML: Javascript: var doClose = false; documen
Algolia 实时 Webhooks
有什么方法可以知道 Algolia 何时成功处理了排队作业，或者与上次重新索引相比，Algolia 是否索引了新文档？我们希望建立一个系统，每当新文档被索引时，浏览网站的用户都会收到实时更新警告，并
Java - 网络应用程序 - 实时
构建将在“桌面”而不是浏览器中运行的 Java 应用程序的推荐策略是什么。该应用程序的特点是: 1. Multiple application instances would be running o
iphone - 离线时特定时区的iOS“实时”
这是场景: 我正在编写一个医疗相关程序，可以在没有连接的情况下使用。当采取某些措施时，程序会将时间写入CoreData记录。这就是问题所在，如果他们的设备将时间设置为比实际时间早的时间。那将是一个大
Jquery 可拖动/实时
我有: $(document).ready(function () { $(".div1, .div2, .div3, .div4, .div5").draggable();
JQuery:实时标记第二次部分工作
我有以下 jquery 代码: $("a[id*='Add_']").live('click', function() { //Get parentID to add to. var
html - 如何在jsp页面文本区域显示tomcat登录(实时)？
我有一个 jsp 文件，其中包含一个表单。提交表单会调用处理发送的数据的 servlet。我希望当我点击提交按钮时，一个文本区域被跨越并且应该实时显示我的应用程序的日志。我正在使用 Tomcat 7。
c# - 更新页面中的文本框(实时)
我编辑了我的问题，我在 Default.aspx 页面中有一个提交按钮和文本框。我打开两个窗口Default.aspx。我想在这个窗口中向文本框输入文本并按提交，其他窗口将实时更新文本框。请帮助我!
javascript - 如何监控用户在线状态(实时)
我用 php 创建了一个小型 CMS，如果其他用户在线或离线，我想显示已登录的用户。目前，我只创建一个查询请求，但这不会一直更新。我希望用户在发生某些事情时立即看到更改。我正在寻找一个类似于 fac
c++ - *实时*访问光盘文件中的数据
我有以下问题需要解决。我必须构建一个图形查看器来查看海量数据集。我们有一些特定格式的文件，其中包含数百万条代表实验结果的记录。每条记录代表大图上的一个样本点。我见过的最大的文件有 4370 万条记录
php - 检查用户当前是否在线(实时)
我最近完成了申请，但遇到了一个大问题。我一次只需要允许 1 个用户访问它。每个用户每次都可以访问一个索引页面和“开始”按钮。当用户点击开始时，应用程序锁定，其他人需要等到用户完成。当用户关闭选项卡/浏
Android:如何改变输出声音的音调(实时)
我是 Android 开发新手。我正在寻找任何将音高变换应用到输出声音(实时)的方法。但我找不到任何起点。我找到了这个 topic但我仍然不知道如何应用它。有什么建议吗？最佳答案一般来说，该算
实时 PHP 套接字
背景用户计算机上的桌面应用程序从调制解调器获取电话号码，并在接到电话后将其发送到 PHP 脚本。目前，我可以通过 PHP 在指定端口上接收数据/数据包。然后我有一个连接到 411 数据库并返回指定电
c# - 实时、迭代应用架构
很抱歉提出抽象问题，但我正在寻找一些关于在循环中执行一些等效操作的应用程序类型的示例/建议/文章，并且循环的每次迭代都应该在特定时间部分公开其结果(例如， 10 秒)。我的应用程序在外部 WCF 服
c++ - 实时、用户时间和系统时间的区别
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: What specifically are wall-clock-time, user-cpu-time,
c# - 如何正确更新我的图表值？ (实时)
我最近遇到了一个叫做 LiveChart 的工具，决定试用一下。不幸的是，我在弄清楚如何实时更新图表值时遇到了一些问题。我很确定有一种干净正确的方法可以做到这一点，但我找不到它。我希望能够通过 p
dart - 实时 flutter
我正在实现实时 flutter 库 https://pub.dartlang.org/packages/true_time 遇到错误 W/DiskCacheClient(26153): Cannot
Instagram 实时 API 更新很少
我一直在使用 instagram 的实时推送 api ( http://instagram.com/developer/realtime/ ) 来获取特定位置的更新。我使用“半径”的最大可能值，即 5
stocks - 实时/高分辨率股票 API？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi

首页

博学

6Ren·AI

商城

statistics - 是否可以使用 Spark Streaming 实时更新值？