- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我已经看到大数据社区非常热衷于以多种方式使用 Flafka 进行数据摄取,但我还没有真正理解为什么。
为了更好地理解这一点,我开发了一个简单示例,即摄取 Twitter 数据并将它们移动到多个接收器(HDFS、Storm、HBase)。
ingestion部分我通过以下两种方式实现:(1) 具有多个消费者的普通 Kafka Java 生产者 (2) Flume agent #1 (Twitter source + Kafka sink) | (潜在的)Flume agent #2(Kafka source + multiple sinks)。我没有真正看到开发任何这些解决方案的复杂性有什么不同(不是生产系统,我无法评论性能)——我在网上发现的只是 Flafka 的一个很好的用例是来自多个数据的数据在不同地方消耗之前需要聚集在一个地方的资源。
有人可以解释为什么我会使用 Flume+Kafka 而不是普通的 Kafka 或普通的 Flume 吗?
最佳答案
人们通常会结合使用 Flume 和 Kafka,因为 Flume 有一套很棒的(经过实战检验的)连接器(HDFS、Twitter、HBase 等)和< strong>Kafka 带来弹性。此外,Kafka 有助于在节点之间分发 Flume 事件。
编辑:
Kafka replicates the log for each topic's partitions across a configurable number of servers (you can set this replication factor on a topic-by-topic basis). This allows automatic failover to these replicas when a server in the cluster fails so messages remain available in the presence of failures. -- https://kafka.apache.org/documentation#replication
因此,一旦 Flume 将消息发送到 Kafka,您就可以保证您的数据不会丢失。注意:您可以在摄取的每个阶段将 Kafka 与 Flume 集成(即,Kafka 也可以用作源、 channel 和接收器)。
关于hadoop - 大数据摄取 - Flafka 用例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40471113/
我有这个 json 模式 { "name":"Pete" "age":24, "subjects":[ { "name":"maths" "grade":"
测量海浪周期的变量的“单位”属性以“秒”为单位。这不是日期时间字段,但 xarray 会自动将此变量作为 timedelta64 摄取。由于单位不是“自...以来的秒数”,我会假设 xarray 应该
我尝试使用 geomesa-accumulo 摄取 geotiff 数据,但出现以下错误: WARNING: Failed to load the GDAL native libs. This is
我有一个很大的 JSON 字符串,包含 10 条记录,每条记录都有自己的属性。我需要使用 Javascript 将它们提取到我的 MongoDB 中。我对 Javascript 基本上没什么用,谷歌也
在谈到 MongoDB 时,我完全是个新手,但我以前确实有使用 Hbase 和 Accumulo 等 nosql 存储的经验。当我使用这些其他 nosql 平台时,我最终编写了自己的数据摄取框架(通常
我正在尝试为我正在开发的应用构建我自己的客户端 RTMP 库。到目前为止,一切都非常成功,因为我能够连接到 RTMP 服务器协商握手,然后发送所有必要的数据包(FCPublish Publish ET
我将 pandas 与 pandera 一起用于模式验证,但我遇到了一个问题,因为数据中有一个空整数列。 from prefect import task, Flow #type:i
我将 pandas 与 pandera 一起用于模式验证,但我遇到了一个问题,因为数据中有一个空整数列。 from prefect import task, Flow #type:i
我无法在网络服务中正确读取输入 JSON 文件。我正在尝试将一些输入参数从简单的字符串更改为字符串数组 我的输入 JSON 看起来像这样: { "inputParams" : { "speck
Snowflake 建议在摄取之前拆分大文件: To optimize the number of parallel operations for a load, we recommend aimin
我可以在linux中成功执行以下命令: ffmpeg -i "rtmp://42.62.95.48/live?vhost=hls/livestream timeout=2" -vcodec copy
您好,我需要从数据库中读取多个表并连接这些表。一旦表加入,我想将它们推送到 Elasticsearch。 这些表是从外部进程连接的,因为数据可以来自多个源。这不是问题,事实上我有 3 个单独的进程以平
如何根据 Kafka 消息中的消息类型使用水槽写入自定义 hdfs 目录? 说 kafka 消息:{"type": "A", "data": "blah"} 在类型字段中有 "A"应该写入 /data
我正在寻找一种方法,使 Google DataFlow 作业在(特定)异常发生时停止从 Pub/Sub 摄取。 来自 Pub/Sub 的事件是通过 PubsubIO.Read.Bound 读取的 JS
我运行了一个 docker-compose up,我在我的 golang 容器上收到一条错误消息,提示“Error establishing Mongo session”,然后容器退出。我不确定问题是
我是一名优秀的程序员,十分优秀!