gpt4 book ai didi

hadoop - 带有kafka的流式推文,如果没有,则无法在Hive中进行分析

转载 作者:行者123 更新时间:2023-12-02 20:20:55 24 4
gpt4 key购买 nike

我想做一个项目,在其中流一些推文以在Hive中进行分析,所有这些过程都必须在HDF / NiFi中完成。该项目必须是可伸缩的。
我在Cloudera网站上看到人们采用两种不同的流程策略师。

1.)获取推文--->将其放入HDFS --->使用Hive分析

2.)获取推文--->使用Kafka(发布/消费)流--->将其放入HDFS --->使用Hive分析

所以,我的问题是有什么区别?第一个策略不是可扩展的?
您会采取哪种策略?
谢谢。

最佳答案

这完全取决于您的维护负担。

Hadoop,YARN,Kafka和Nifi都是隔离的服务,需要大量的调整和配置。除Twitter接收外,每个组件均可独立扩展。

您可以将Kafka用作HDFS前面的一种缓冲区,以在进入任何文件系统之前批处理和处理tweet。此外,您稍后可以将推文流式传输到Elasticsearch或Solr中进行搜索,而不是在Hadoop中进行批量分析

为了更快地查询,请使用Presto,Kudu,Spark或Impala而不是Hive

关于hadoop - 带有kafka的流式推文,如果没有,则无法在Hive中进行分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60564613/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com