gpt4 book ai didi

hadoop - Hadoop 是为解决需要对相同数据但具有不同参数的多个并行计算的问题而设计的吗?

转载 作者:可可西里 更新时间:2023-11-01 14:32:09 25 4
gpt4 key购买 nike

从我所读的内容来看,我了解到 Hadoop 非常适合解决以下类别的问题 - 通过在可能的许多节点之间分配计算来回答一个巨大的问题。

Hadoop 的设计目的是解决涉及在同一数据集上进行多次计算但每个参数不同的问题吗?例如,基于相同的主数据集模拟不同的场景,但使用不同的参数(例如,在相同的数据集上测试数据挖掘模型,但产生多次模拟迭代,每次迭代使用不同的参数集并找到最佳模型)

例如对于一个预测天气的模型,它有一组不同权重的规则,Hadoop 是否支持运行相同的模型,但每个“节点”在学习集上以不同的权重值运行并比较预测结果以找到最佳模型?

或者这是 Hadoop 根本不打算做的事情?

最佳答案

这并不是它真正设计的目的。通常,您希望能够将数据集的不同部分分布到不同的节点。这是 hadoop 背后的主要思想之一:将一个巨大的数据集拆分到多个节点上,并将计算带到数据上。但是,它仍然可以在不跳过太多环的情况下完成。

我不确定您对 MapReduce 范式有多熟悉,但您可以将模型的参数视为 map task 的“输入”。将数据集放在 HDFS 中的某个位置,并编写一个 MapReduce 作业,以便 map task 从 HDFS 读取数据集,然后使用给定的参数评估模型。所有 map 输出都被发送到一个 reducer,它只输出给出最高分的参数。如果您使输入文件(模型参数)的数量等于节点的数量,您应该为每个节点获得一个 map task ,这就是您想要的。

关于hadoop - Hadoop 是为解决需要对相同数据但具有不同参数的多个并行计算的问题而设计的吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12501920/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com