gpt4 book ai didi

hadoop - 大数据摄取 - Flafka 用例

转载 作者:可可西里 更新时间:2023-11-01 14:48:37 25 4
gpt4 key购买 nike

我已经看到大数据社区非常热衷于以多种方式使用 Flafka 进行数据摄取,但我还没有真正理解为什么。

为了更好地理解这一点,我开发了一个简单示例,即摄取 Twitter 数据并将它们移动到多个接收器(HDFS、Storm、HBase)。

ingestion部分我通过以下两种方式实现:(1) 具有多个消费者的普通 Kafka Java 生产者 (2) Flume agent #1 (Twitter source + Kafka sink) | (潜在的)Flume agent #2(Kafka source + multiple sinks)。我没有真正看到开发任何这些解决方案的复杂性有什么不同(不是生产系统,我无法评论性能)——我在网上发现的只是 Flafka 的一个很好的用例是来自多个数据的数据在不同地方消耗之前需要聚集在一个地方的资源。

有人可以解释为什么我会使用 Flume+Kafka 而不是普通的 Kafka 或普通的 Flume 吗?

最佳答案

人们通常会结合使用 Flume 和 Kafka,因为 Flume 有一套很棒的(经过实战检验的)连接器(HDFS、Twitter、HBase 等)和< strong>Kafka 带来弹性。此外,Kafka 有助于在节点之间分发 Flume 事件。

编辑:

Kafka replicates the log for each topic's partitions across a configurable number of servers (you can set this replication factor on a topic-by-topic basis). This allows automatic failover to these replicas when a server in the cluster fails so messages remain available in the presence of failures. -- https://kafka.apache.org/documentation#replication

因此,一旦 Flume 将消息发送到 Kafka,您就可以保证您的数据不会丢失。注意:您可以在摄取的每个阶段将 Kafka 与 Flume 集成(即,Kafka 也可以用作源、 channel 和接收器)。

关于hadoop - 大数据摄取 - Flafka 用例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40471113/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com