gpt4 book ai didi

apache-spark - Spark MLLIB 并行多节点

转载 作者:行者123 更新时间:2023-12-04 18:00:42 25 4
gpt4 key购买 nike

“spark mllib”提供的机器学习算法,如 naive byes、random forest 能否在 spark 集群中以并行模式运行?或者我们需要更改代码?请提供一个并行运行的例子?不确定 MLLIB 中的并行性如何工作(映射)——因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行?谢谢

最佳答案

这些算法由 Spark MLLib 提供自动并行运行。他们期望一个 RDD 作为输入。 RDD 是一种弹性分布式数据集,分布在计算机集群中。

Here是使用决策树解决分类问题的示例问题。

我强烈建议深入探索 link provided above .该页面包含有关如何对这些算法进行编码的大量文档和示例,包括生成训练和测试数据集、评分、交叉验证等。

这些算法通过在工作节​​点的数据子集上运行计算来并行运行,然后跨工作节点并与主节点共享这些计算的结果。主节点收集各个计算的结果,并根据需要聚合它们,以根据整个数据集做出决策。计算繁重的事件主要在工作节点上执行。

关于apache-spark - Spark MLLIB 并行多节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35828503/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com