gpt4 book ai didi

hadoop - 具有数据挖掘功能的 MapReduce 项目

转载 作者:可可西里 更新时间:2023-11-01 15:41:08 25 4
gpt4 key购买 nike

我计划做一个涉及 Hadoop 库的 MapReduce 项目,并在 AWS 上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce 设计模式 以及可能的图形算法、Hive 和 PigLatin。如果有人能给我一些想法,我将不胜感激。我的想法很少。

最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用 Weka 进行数据挖掘(使用树)。

但我不确定这是否是我现在唯一可以使用的东西(使用 Weka)。有没有其他方法可以让我处理大数据并从大数据集得出结论?

另外,我怎样才能在其中涉及图表?

基本上我想做一个研究项目,但我不确定我到底应该做什么以及它应该是什么样子?有什么想法吗 ?暗示性链接/想法?知识共享?

最佳答案

我会建议您查看 Apache Mahout ,它是一个可扩展的机器学习和数据挖掘框架,应该与 Hadoop 很好地集成。

Hive 为您提供类似 SQL 的语言来查询大数据,本质上它将您的高级查询转换为 MapReduce 作业并在数据集群上运行。

另一个建议是考虑使用 R 进行数据处理算法,它是一种统计软件(类似于 matlab),我建议使用 R Revolution 而不是标准 R 环境。 ,这是一个开发 R 的环境,但有很多强大的大数据和集群工具。

编辑:如果您是学生,R Revolution 有免费的学术版。

编辑: 第三个建议是查看 GridGain这是另一种 Java 中的 Map/Reduce 实现,相对容易在集群上运行。

关于hadoop - 具有数据挖掘功能的 MapReduce 项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13357136/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com