hadoop - 如何将 Weka 与 Hadoop 连接起来？-6ren

hadoop - 如何将 Weka 与 Hadoop 连接起来？

转载作者：可可西里更新时间：2023-11-01 15:06:33

29

4

我有一个数据集，我需要为其处理 PCA(主成分分析，一种降维程序)，使用 Weka 可以很容易地进行处理。

而且由于数据集很大，Weka 显示出内存问题，如果我将 Weka 与 Hadoop 链接起来就可以解决这个问题。在服务器中使用 weka 运行算法。任何人都可以帮我解决同样的问题。如何将 Weka 与 Hadoop 连接起来以处理更大的数据集？请帮忙!

谢谢你..

最佳答案

Weka 3.7 有新的 Hadoop 分布式处理包。这些包提供的其中一项工作将计算 Hadoop 中的相关(或协方差)矩阵。用户可以选择让作业使用相关矩阵作为 PCA 分析的输入(这部分在 Hadoop 之外运行)并生成“训练有素”的 Weka PCA 过滤器。这会在实例数量上扩展 Weka 的 PCA 分析(但不会在原始特征的数量上扩展，因为 PCA 计算仍然在客户端本地进行)。

有关 Hadoop 包的更多信息，请参阅:

http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html

分布式 WekaHadoop 包可以通过 Weka 3.7 中的包管理器安装。

干杯，马克。

关于hadoop - 如何将 Weka 与 Hadoop 连接起来？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21305962/

29

4

0

文章推荐： hadoop - Secondary Namenode失效对hadoop集群有什么影响

文章推荐： hadoop - 分析 S3 上的大量 JSON 文件

文章推荐： hadoop - 在 PIG 中添加重复列

文章推荐： sql - 选择 Hive 表中的第一个匹配项

python - Vagrant 起来 : InsecurePlatformWarning
我正在尝试执行 vagrant up 但一直遇到此错误: ==> default: IOError: [Errno 13] Permission denied: '/usr/local/lib/pyt
html - 如何让不同高度的html div float 起来
我在容器 div 中有一系列动态创建的不同高度的 div。 Varying text... Varying text... Varying text... Varying text.
Vagrant 起来 : bad interpreter: No such file or directory
通过 cygwin 运行 vagrant up 时遇到以下错误。 stderr: /bin/bash: /home/vagrant/.ansible/tmp/ansible-tmp-14872260
有了这个开源项目，不会 Web 开发也能让数据“动”起来！
今天要向小伙伴们介绍的是一个能够快速地把数据制作成可视化、交互页面的 Python 框架：Streamlit，分分钟让你的数据动起来！犹记得我在做机器学习和数据分析方面的毕设时，
vagrant - vb.customize 'storageattach' 第一次挂载我的磁盘，但在 vagrant pause 后更改丢失； Vagrant 起来
我是 vagrant 的新手，正在尝试将第二个磁盘添加到我正在用 vagrant 制作的虚拟机中。我想出了如何在第一次启动虚拟机时连接磁盘，但是当我关闭机器时然后再次备份(使用 'vagrant

首页

博学

6Ren·AI

商城

hadoop - 如何将 Weka 与 Hadoop 连接起来？