gpt4 book ai didi

hadoop - Spark与Hadoop

转载 作者:行者123 更新时间:2023-12-02 19:33:25 25 4
gpt4 key购买 nike

我需要使用Hadoop或Spark编写大数据处理应用程序。我知道Hadoop MapReduce是批处理应用程序的最佳技术,而Spark是分析应用程序的最佳技术。
应用程序将获得一个输入文件和少量配置文件。该输入文件需要借助配置文件转换为输出文件。所谓的配置文件或转换规范具有诸如从源到目标文件逐列映射以及将特定单元格值转换为其他值的表达式之类的信息。我已经用MapReduce编写了这个。输入内容可能包含一百万/十亿条记录。现在,利益相关者建议使用Spark,因为他们认为它比MapReduce更快。但是我认为对于这种情况,Spark将不适合,因为它适合于分析应用程序而非批处理。我也只能在Spark中看到类似于聚合函数的API,无法找到任何内置API来按记录和按列逐列读取/记录,例如MapReduce。请就此建议您的方法

最佳答案

你不完全正确。 Spark是一个很好的工具,但尚未准备好供企业使用。当所有数据都适合内存并且需要应用一系列复杂的转换时,Spark可能比Hadoop甚至快100倍。如果这是典型的批处理情况,并且配置文件设置了一些平面逻辑,则建议您使用Hadoop,因为Spark不会带来很多性能提升。 Hadoop比Spark更成熟,更具有容错能力,它的采用率更高且没有错误。我会认为您处在安全的路线上,并且拥有带有HDFS的Hadoop集群来存储数据和YARN,以Java作为Mapreduce作业来编写您的应用程序,并在同一集群上使用Spark-您会发现您的具体情况有所不同没有太多的努力

关于hadoop - Spark与Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27794469/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com