gpt4 book ai didi

apache-spark - 如何对多个 Spark 作业并行执行多个 Kafka 主题

转载 作者:行者123 更新时间:2023-12-03 23:57:35 25 4
gpt4 key购买 nike

如果这个问题没有意义,请原谅,因为我刚刚开始使用 Spark 并试图理解它。

从我读过的内容来看,Spark 是对流数据进行实时分析的一个很好的用例,然后可以将其推送到下游接收器,例如 hdfs/hive/hbase 等。

我有两个问题。我不清楚在任何给定时间是否只有 1 个 Spark 流作业正在运行或多个。假设我需要对来自 Kafka 的每个主题或流入 Kafka 的每个源执行不同的分析,然后将这些结果推送到下游。

Spark 是否允许您并行运行多个流作业,以便您可以为每个流或在这种情况下为每个 Kafka 主题保持单独的聚合分析。如果是这样,那是如何完成的,您可以指点我的任何文档吗?

需要明确的是,我的用例是从不同来源进行流式传输,每个来源可能具有我需要执行的潜在不同分析以及不同的数据结构。我希望能够拥有多个 Kafka 主题和分区。我了解每个 Kafka 分区都映射到一个 Spark 分区,并且可以并行化。

我不确定您如何并行运行多个 Spark 流作业,以便能够从多个 Kafka 主题中读取数据,并对这些主题/流进行单独的分析。

如果不是 Spark,这是可以在 Flink 中做的事情吗?

其次,如何开始使用Spark,似乎每个组件都有一家公司或发行版可供选择,Confluent-Kafka、Databricks-Spark、Hadoop-HW/CDH/MAPR。是否真的需要所有这些,或者在限制供应商数量的同时使用大数据管道的最小和最简单的方法是什么?甚至从 POC 开始似乎是一项艰巨的任务。

最佳答案

您提出了多个问题,因此我将分别解决每个问题。

  • Spark 是否允许您并行运行多个流作业?

  • 是的
  • 是否有关于 Spark Streaming with Kafka 的文档?

  • https://spark.apache.org/docs/latest/streaming-kafka-integration.html
  • 如何开始?

  • 一种。图书: https://www.amazon.com/Learning-Spark-Lightning-Fast-Data-Analysis/dp/1449358624/

    湾运行/学习 Spark 的简单方法: https://community.cloud.databricks.com

    关于apache-spark - 如何对多个 Spark 作业并行执行多个 Kafka 主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41615260/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com