hadoop - 大数据摄取 - Flafka 用例-6ren

hadoop - 大数据摄取 - Flafka 用例

转载作者：可可西里更新时间：2023-11-01 14:48:37

25

4

我已经看到大数据社区非常热衷于以多种方式使用 Flafka 进行数据摄取，但我还没有真正理解为什么。

为了更好地理解这一点，我开发了一个简单示例，即摄取 Twitter 数据并将它们移动到多个接收器(HDFS、Storm、HBase)。

ingestion部分我通过以下两种方式实现:(1) 具有多个消费者的普通 Kafka Java 生产者 (2) Flume agent #1 (Twitter source + Kafka sink) | (潜在的)Flume agent #2(Kafka source + multiple sinks)。我没有真正看到开发任何这些解决方案的复杂性有什么不同(不是生产系统，我无法评论性能)——我在网上发现的只是 Flafka 的一个很好的用例是来自多个数据的数据在不同地方消耗之前需要聚集在一个地方的资源。

有人可以解释为什么我会使用 Flume+Kafka 而不是普通的 Kafka 或普通的 Flume 吗？

最佳答案

人们通常会结合使用 Flume 和 Kafka，因为 Flume 有一套很棒的(经过实战检验的)连接器(HDFS、Twitter、HBase 等)和< strong>Kafka 带来弹性。此外，Kafka 有助于在节点之间分发 Flume 事件。

编辑:

Kafka replicates the log for each topic's partitions across a configurable number of servers (you can set this replication factor on a topic-by-topic basis). This allows automatic failover to these replicas when a server in the cluster fails so messages remain available in the presence of failures. -- https://kafka.apache.org/documentation#replication

因此，一旦 Flume 将消息发送到 Kafka，您就可以保证您的数据不会丢失。注意:您可以在摄取的每个阶段将 Kafka 与 Flume 集成(即，Kafka 也可以用作源、 channel 和接收器)。

关于hadoop - 大数据摄取 - Flafka 用例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40471113/

25

4

0

文章推荐： hadoop - Spark 中的 part-r-xxxxx 文件

文章推荐： javascript - Jquery - 使用 .click() 定位 1 div

文章推荐： html - 移动到响应和返回后 Div 不能正确 float

文章推荐： xml - 在 Hive 上使用 XPATH 获取 XML 节点的名称

Pinot 嵌套 json 摄取
我有这个 json 模式 { "name":"Pete" "age":24, "subjects":[ { "name":"maths" "grade":"
python - xarray 波周期以秒为单位作为 timedelta64 摄取
测量海浪周期的变量的“单位”属性以“秒”为单位。这不是日期时间字段，但 xarray 会自动将此变量作为 timedelta64 摄取。由于单位不是“自...以来的秒数”，我会假设 xarray 应该
java - 使用 geomesa-accumulo 摄取 GeoTIFF
我尝试使用 geomesa-accumulo 摄取 geotiff 数据，但出现以下错误: WARNING: Failed to load the GDAL native libs. This is
javascript - MongoDB javascript 摄取 JSON 字符串
我有一个很大的 JSON 字符串，包含 10 条记录，每条记录都有自己的属性。我需要使用 Javascript 将它们提取到我的 MongoDB 中。我对 Javascript 基本上没什么用，谷歌也
node.js - MongoDB 摄取 ETL 设计选项
在谈到 MongoDB 时，我完全是个新手，但我以前确实有使用 Hbase 和 Accumulo 等 nosql 存储的经验。当我使用这些其他 nosql 平台时，我最终编写了自己的数据摄取框架(通常
objective-c - RTMP 摄取 block 流的问题
我正在尝试为我正在开发的应用构建我自己的客户端 RTMP 库。到目前为止，一切都非常成功，因为我能够连接到 RTMP 服务器协商握手，然后发送所有必要的数据包(FCPublish Publish ET
python - 摄取 Null Int 列 : Pandas and Pandera
我将 pandas 与 pandera 一起用于模式验证，但我遇到了一个问题，因为数据中有一个空整数列。 from prefect import task, Flow #type:i
python - 摄取 Null Int 列 : Pandas and Pandera
我将 pandas 与 pandera 一起用于模式验证，但我遇到了一个问题，因为数据中有一个空整数列。 from prefect import task, Flow #type:i
java - 如何使用 Spring Boot 摄取 Json 字符串数组
我无法在网络服务中正确读取输入 JSON 文件。我正在尝试将一些输入参数从简单的字符串更改为字符串数组我的输入 JSON 看起来像这样: { "inputParams" : { "speck
split - 如何拆分 CSV 或 JSON 文件以实现最佳 Snowflake 摄取？
Snowflake 建议在摄取之前拆分大文件: To optimize the number of parallel operations for a load, we recommend aimin
ffmpeg - 如何使用 execv 执行 ffmpeg 摄取 rtmp 流
我可以在linux中成功执行以下命令: ffmpeg -i "rtmp://42.62.95.48/live?vhost=hls/livestream timeout=2" -vcodec copy
java - 尝试批量/摄取 "large"数量的文档 SQL Db 到 Elasticsearch
您好，我需要从数据库中读取多个表并连接这些表。一旦表加入，我想将它们推送到 Elasticsearch。这些表是从外部进程连接的，因为数据可以来自多个源。这不是问题，事实上我有 3 个单独的进程以平
hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取
如何根据 Kafka 消息中的消息类型使用水槽写入自定义 hdfs 目录？说 kafka 消息:{"type": "A", "data": "blah"} 在类型字段中有 "A"应该写入 /data
google-bigquery - 如何在 BigQuery 插入错误时崩溃/停止 DataFlow Pub/Sub 摄取
我正在寻找一种方法，使 Google DataFlow 作业在(特定)异常发生时停止从 Pub/Sub 摄取。来自 Pub/Sub 的事件是通过 PubsubIO.Read.Bound 读取的 JS
mongodb - 当我运行 docker compose 时，我的 golang(摄取)容器无法显示 "Error establishing Mongo session"
我运行了一个 docker-compose up，我在我的 golang 容器上收到一条错误消息，提示“Error establishing Mongo session”，然后容器退出。我不确定问题是

首页

博学

6Ren·AI

商城

hadoop - 大数据摄取 - Flafka 用例