gpt4 book ai didi

apache-spark - 从 Kafka 读取消息并写入 HDFS

转载 作者:可可西里 更新时间:2023-11-01 15:09:21 28 4
gpt4 key购买 nike

我正在寻找从 Kafka 读取消息(大量消息,每天大约 100B)的最佳方式,在读取消息后我需要对数据进行操作并将其写入 HDFS。

  • 如果我需要以最佳性能执行此操作,那么从 Kafka 读取消息并将文件写入 HDFS 的最佳方式是什么?
  • 哪种编程语言最适合?
  • 我是否需要考虑为此使用 Spark 等解决方案?

最佳答案

您应该为此使用 Spark 流(参见 here ),它提供了 Kafka 分区和 Spark 分区之间的简单对应关系。

或者您可以使用 Use Kafka Streams(参见 more)。 Kafka Streams 是用于构建应用程序和微服务的客户端库,其中输入和输出数据存储在 Kafka 集群中。

关于apache-spark - 从 Kafka 读取消息并写入 HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50338579/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com