gpt4 book ai didi

hadoop - MPI 数据挖掘库

转载 作者:可可西里 更新时间:2023-11-01 14:26:16 25 4
gpt4 key购买 nike

有没有使用(或可以被)MPI(消息传递接口(interface))的数据挖掘库?我正在寻找类似于 Apache Mahout 但可以轻松集成到 MPI 环境中的东西。

我想使用 MPI 的原因是配置(与 Hadoop 相比)很容易。还是在数据挖掘场景中使用 MPI 没有意义?

最佳答案

MPI(这是一个概念,而不是软件本身!)没有理由比 Hadoop/Mahout 更容易安装。事实上,后两者目前一团糟,特别是因为它们的 Java 库困惑。 Apache Bigtop 试图使它们更易于安装,一旦您掌握了一些基础知识,就可以了。

但是:

  • 如果您的数据很小(即它可以在单个节点上处理),请不要安装集群解决方案,您需要支付开销。 Hadoop 在单个主机上没有多大意义。使用 Weka,ELKI 、RapidMiner、KNIME 或其他任何东西。
  • 如果您的数据很大,您将希望尽量减少数据传输。而这正是 Hadoop/Mahout 的优势所在,它可以最大限度地减少数据传输。典型的消息传递 API 无法以相同的方式扩展数据密集型操作。

有一些努力,例如 Apache Hama,与 MPI 东西恕我直言非常相似。它基于消息,但是它们是通过屏障同步进行批量处理的。它也可能在发送之前进行一些消息聚合以减少流量。

关于hadoop - MPI 数据挖掘库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12710157/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com