gpt4 book ai didi

apache-spark - 什么时候 Kafka 连接器比 Spark 流解决方案更受欢迎?

转载 作者:行者123 更新时间:2023-12-04 15:59:13 25 4
gpt4 key购买 nike

使用 Spark 流,我可以读取 Kafka 消息并将数据写入不同类型的表,例如 HBase、Hive 和 Kudu。但这也可以通过对这些表使用 Kafka 连接器来完成。我的问题是,在哪些情况下我应该更喜欢连接器而不是 Spark 流解决方案。

Kafka 连接器解决方案的容忍度如何?我们知道通过 Spark 流,我们可以使用在多个节点上运行的检查点和执行器进行容错执行,但是 Kafka 连接器如何实现容错(如果可能)?通过在多个节点上运行连接器?

最佳答案

因此,一般来说,简单地从 Kafka 读取记录并将它们发送到其他服务时,功能应该没有太大区别。

Kafka Connect 在处理标准任务时可能更容易,因为它提供了各种开箱即用的连接器,因此很可能会减少编写任何代码的需要。因此,如果您只想将一堆记录从 Kafka 复制到 HDFS 或 Hive,那么使用 Kafka 连接可能会更容易、更快。

考虑到这一点,当您需要做一些非标准的事情时,Spark Streaming 会彻底接管,即如果您想对记录执行一些聚合或计算并将它们写入 Hive,那么您可能应该从一开始就使用 Spark Streaming。

一般来说,我发现使用 Kafka connect 做一些不合标准的事情,例如将一条消息拆分为多条消息(假设它是例如 JSON 数组)非常麻烦,并且通常需要比在 Spark 中做更多的工作。

至于 Kafka Connect 容错,正如文档中所述,这是通过使用相同的 group.id 运行多个分布式工作程序来实现的。 ,如果其中一个失败,工作人员会重新分配任务和连接器。

关于apache-spark - 什么时候 Kafka 连接器比 Spark 流解决方案更受欢迎?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62194419/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com