gpt4 book ai didi

apache-spark - "streaming"在Apache Spark和Apache Flink中是什么意思?

转载 作者:行者123 更新时间:2023-12-04 03:50:38 27 4
gpt4 key购买 nike

当我访问Apache Spark Streaming网站时,看到一个句子:

Spark Streaming makes it easy to build scalable fault-tolerant streaming applications.



Apache Flink网站上有一个句子:

Apache Flink is an open source platform for scalable batch and stream data processing.


streaming applicationbatch data processingstream data processing是什么意思?你能举一些具体的例子吗?它们是为传感器数据设计的吗?

最佳答案

流数据分析(与“批处理”数据分析相反)是指对典型的无限数据项流(通常称为事件)进行连续分析。

流媒体应用程序的特征

流数据处理应用程序通常具有以下几点特征:

  • 流应用程序很长时间连续运行,并在事件出现后立即使用和处理事件。相比之下。批处理应用程序将数据收集到文件或数据库中,并在以后进行处理。
  • 流应用程序经常将自己与结果的延迟联系在一起。延迟是事件创建到分析应用程序考虑到该事件之间的延迟。
  • 因为流是无限的,所以许多计算不能只引用整个流,而不能引用整个流的“窗口”。窗口是流事件的子序列(例如最近5分钟)的 View 。现实世界中的窗口统计数据的一个示例是“过去3天的平均股价”。
  • 在流应用程序中,事件的时间通常起着特殊的作用。关于事件按时间顺序的解释是很常见的。尽管某些批处理应用程序也可以执行此操作,但它不是此处的核心概念。

  • 流应用程序示例

    流数据处理应用程序的典型示例是
  • 欺诈检测:应用程序尝试确定事务是否符合以前观察到的行为。如果没有,则交易可能表明尝试滥用。通常是对延迟至关重要的应用程序。
  • 异常检测:流应用程序为其观察到的事件建立统计模型。离群值指示异常,并可能触发警报。传感器数据可能是要分析异常的事件的一种来源。
  • 在线推荐:如果访问网上商店的用户没有很多过去的行为信息,那么在她浏览页面和浏览文章并直接开始生成一些初始建议时,从她的行为中学习是很有趣的。
  • 最新数据仓库:关于如何将数据仓库基础结构建模为流应用程序的有趣文章,其中事件流是对数据库的更改序列,而流应用程序将各种仓库计算为专门的“聚合 View ” ”的事件流。
  • 还有更多...
  • 关于apache-spark - "streaming"在Apache Spark和Apache Flink中是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31135505/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com