gpt4 book ai didi

hadoop - 流数据 [Hadoop/MapReduce] - 挑战是什么?

转载 作者:可可西里 更新时间:2023-11-01 16:58:21 26 4
gpt4 key购买 nike

我在很多地方都读过有关流数据的信息,但只是想了解在使用 Map Reduce 技术处理数据时所面临的挑战?

即Apache Flume、Apache Storm 等框架存在背后的原因。

请分享您的建议和想法。

谢谢,拉尼特

最佳答案

有很多技术,其中很多都运行在 Hadoop 框架上。

Hive 等较旧的 Hadoop 服务往往速度较慢,通常用于批处理作业,而不是流式处理。随着流式传输变得越来越必要,其他服务也浮出水面,例如 Storm 或 Spark,它们旨在加快执行速度并与 Kafka 等消息队列集成以进行流式传输。

虽然在数据分析中,大部分时间处理不是实时的:历史数据可能以批处理模式处理以提取模型,然后用于实时分析,因此“流式”系统通常基于Lambda 架构 http://lambda-architecture.net/

像 Spark 这样的服务试图集成所有组件,Spark Streaming 用于速度层,Spark SQL 用于服务层,Spark MLLib 用于建模,所有这些都基于 Hadoop 分布式文件系统 (hdfs) 用于复制大容量贮存。

Flume 有助于将数据从源定向到 hdfs 以进行原始存储,但为了处理它,使用了 Storm 或 Spark。

希望对您有所帮助。

关于hadoop - 流数据 [Hadoop/MapReduce] - 挑战是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27177104/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com