gpt4 book ai didi

apache-spark - Apache Kafka 和 Spark 流

转载 作者:行者123 更新时间:2023-12-04 05:15:19 28 4
gpt4 key购买 nike

我正在阅读这篇博文:

http://blog.jaceklaskowski.pl/2015/07/20/real-time-data-processing-using-apache-kafka-and-spark-streaming.html

它讨论了如何使用 Spark Streaming 和 Apache Kafka 进行一些近乎实时的处理。我完全理解这篇文章。它确实展示了我如何使用 Spark Streaming 从主题中读取消息。我想知道是否有可用于将消息写入 Kakfa 主题的 Spark Streaming API?

我的用例非常简单。我有一组数据,我可以以恒定的时间间隔(比如每秒)从给定的源读取。我使用 react 流来做到这一点。我想使用 Spark 对这些数据进行一些分析。我想要容错,所以 Kafka 就派上用场了。所以我基本上要做的是以下(如果我错了,请纠正我):

  • 使用 react 流以恒定间隔从外部源获取数据
  • 将结果通过管道传输到 Kafka 主题
  • 使用 Spark Streaming,为消费者创建流上下文
  • 对消费数据进行分析

  • 还有一个问题,Spark 中的 Streaming API 是响应式(Reactive)流规范的实现吗?它是否具有背压处理功能(Spark Streaming v1.5)?

    最佳答案

  • 不,目前,Spark Streaming 的内置接收器 API 都不是 Reactive Streams 实现的实现。但是有一个 issue for that你会想要跟随。
  • 但是 Spark Streaming 1.5 has internal back-pressure-based dynamic throttling .还有一些work to extend that beyond throttling在管线中。此限制与 Kafka 直接流 API 兼容。
  • 您可以在 Spark Streaming 应用程序中写入 Kafka,这里是 one example .

  • (完全披露:我是一些背压工作的 implementers 之一)

    关于apache-spark - Apache Kafka 和 Spark 流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32598684/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com