java - Mahout 随机森林分类器示例 ArrayIndexOutOfBoundsException-6ren

java - Mahout 随机森林分类器示例 ArrayIndexOutOfBoundsException

转载作者：行者123 更新时间：2023-12-01 13:13:55

尝试运行 random forest example 时我遇到 java.lang.ArrayIndexOutOfBoundsException: 100 错误。这里 100 与树的数量绑定(bind)。 Map部分完成100%，reduce部分完成0%。我使用 hadoop-1.2.1 和 mahout-distribution-0.7。我也尝试过 mahout-distribution-0.9 ，但出现同样的错误。

有人幸运地运行了这个示例吗？

最佳答案

发现问题。如果使用mapred.job.tracker=local运行hadoop，则PartialBuilder无法使用mapred.map.tasks获取映射任务的数量。因此，它计算出的每个映射任务的树数是错误的。

解决方案:在本地 hadoop 上运行随机森林作业时不要使用参数“-p”。

详细信息:

windiana@host:~/mahout/data/> hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.9-job.jar org.apache.mahout.classifier.df.mapreduce.BuildForest -Dmapred.max.split.size=1874231 -d testdata/KDDTrain+.arff -ds testdata/KDDTrain+.info -sl 5 -t 100 -o nsl-forest
Warning: $HADOOP_HOME is deprecated.

14/08/07 11:25:18 INFO mapreduce.BuildForest: InMem Mapred implementation
14/08/07 11:25:18 INFO mapreduce.BuildForest: Building the forest...
14/08/07 11:25:18 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/08/07 11:25:19 INFO filecache.TrackerDistributedCacheManager: Creating KDDTrain+.info in /tmp/hadoop-martin/mapred/local/archive/-1415030653984777464_-1414908735_797966215/filetestdata-work-5026960219142699303 with rwxr-xr-x
14/08/07 11:25:19 INFO filecache.TrackerDistributedCacheManager: Cached testdata/KDDTrain+.info as /tmp/hadoop-martin/mapred/local/archive/-1415030653984777464_-1414908735_797966215/filetestdata/KDDTrain+.info
14/08/07 11:25:19 INFO filecache.TrackerDistributedCacheManager: Cached testdata/KDDTrain+.info as /tmp/hadoop-martin/mapred/local/archive/-1415030653984777464_-1414908735_797966215/filetestdata/KDDTrain+.info
14/08/07 11:25:19 INFO filecache.TrackerDistributedCacheManager: Creating KDDTrain+.arff in /tmp/hadoop-martin/mapred/local/archive/3941906571438652588_-1415143228_797959215/filetestdata-work-5750487161401524172 with rwxr-xr-x
14/08/07 11:25:19 INFO filecache.TrackerDistributedCacheManager: Cached testdata/KDDTrain+.arff as /tmp/hadoop-martin/mapred/local/archive/3941906571438652588_-1415143228_797959215/filetestdata/KDDTrain+.arff
14/08/07 11:25:19 INFO filecache.TrackerDistributedCacheManager: Cached testdata/KDDTrain+.arff as /tmp/hadoop-martin/mapred/local/archive/3941906571438652588_-1415143228_797959215/filetestdata/KDDTrain+.arff
14/08/07 11:25:19 INFO mapred.JobClient: Running job: job_local966281240_0001
14/08/07 11:25:19 INFO mapred.LocalJobRunner: Waiting for map tasks
14/08/07 11:25:19 INFO mapred.LocalJobRunner: Starting task: attempt_local966281240_0001_m_000000_0
14/08/07 11:25:19 INFO util.ProcessTree: setsid exited with exit code 0
14/08/07 11:25:19 INFO mapred.Task:  Using ResourceCalculatorPlugin : org.apache.hadoop.util.LinuxResourceCalculatorPlugin@2df8fdda
14/08/07 11:25:19 INFO mapred.MapTask: Processing split: [firstId:0, nbTrees:100, seed:null]
14/08/07 11:25:19 INFO inmem.InMemMapper: Loading the data...
14/08/07 11:25:20 INFO mapred.JobClient:  map 0% reduce 0%
14/08/07 11:25:21 INFO inmem.InMemMapper: Data loaded : 125973 instances
14/08/07 11:25:25 INFO mapred.LocalJobRunner: 
14/08/07 11:25:26 INFO mapred.JobClient:  map 1% reduce 0%

...

14/08/07 11:27:59 INFO mapred.JobClient:  map 98% reduce 0%
14/08/07 11:28:00 INFO mapred.Task: Task:attempt_local966281240_0001_m_000000_0 is done. And is in the process of commiting
14/08/07 11:28:00 INFO mapred.LocalJobRunner: 
14/08/07 11:28:00 INFO mapred.Task: Task attempt_local966281240_0001_m_000000_0 is allowed to commit now
14/08/07 11:28:00 INFO output.FileOutputCommitter: Saved output of task 'attempt_local966281240_0001_m_000000_0' to file:/home/martin/Programmieren/mahout/data/cut/nsl-forest
14/08/07 11:28:00 INFO mapred.LocalJobRunner: 
14/08/07 11:28:00 INFO mapred.Task: Task 'attempt_local966281240_0001_m_000000_0' done.
14/08/07 11:28:00 INFO mapred.LocalJobRunner: Finishing task: attempt_local966281240_0001_m_000000_0
14/08/07 11:28:00 INFO mapred.LocalJobRunner: Map task executor complete.
14/08/07 11:28:00 INFO mapred.JobClient:  map 99% reduce 0%
14/08/07 11:28:00 INFO mapred.JobClient: Job complete: job_local966281240_0001
14/08/07 11:28:00 INFO mapred.JobClient: Counters: 12
14/08/07 11:28:00 INFO mapred.JobClient:   File Output Format Counters 
14/08/07 11:28:00 INFO mapred.JobClient:     Bytes Written=2353226
14/08/07 11:28:00 INFO mapred.JobClient:   File Input Format Counters 
14/08/07 11:28:00 INFO mapred.JobClient:     Bytes Read=0
14/08/07 11:28:00 INFO mapred.JobClient:   FileSystemCounters
14/08/07 11:28:00 INFO mapred.JobClient:     FILE_BYTES_READ=61962918
14/08/07 11:28:00 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=45667235
14/08/07 11:28:00 INFO mapred.JobClient:   Map-Reduce Framework
14/08/07 11:28:00 INFO mapred.JobClient:     Map input records=100
14/08/07 11:28:00 INFO mapred.JobClient:     Physical memory (bytes) snapshot=0
14/08/07 11:28:00 INFO mapred.JobClient:     Spilled Records=0
14/08/07 11:28:00 INFO mapred.JobClient:     Total committed heap usage (bytes)=132120576
14/08/07 11:28:00 INFO mapred.JobClient:     CPU time spent (ms)=0
14/08/07 11:28:00 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=0
14/08/07 11:28:00 INFO mapred.JobClient:     SPLIT_RAW_BYTES=90
14/08/07 11:28:00 INFO mapred.JobClient:     Map output records=100
14/08/07 11:28:00 INFO common.HadoopUtil: Deleting file:/home/martin/Programmieren/mahout/data/cut/nsl-forest
14/08/07 11:28:00 INFO mapreduce.BuildForest: Build Time: 0h 2m 41s 702
14/08/07 11:28:00 INFO mapreduce.BuildForest: Forest num Nodes: 130056
14/08/07 11:28:00 INFO mapreduce.BuildForest: Forest mean num Nodes: 1300
14/08/07 11:28:00 INFO mapreduce.BuildForest: Forest mean max Depth: 19
14/08/07 11:28:00 INFO mapreduce.BuildForest: Storing the forest in: nsl-forest/forest.seq

关于java - Mahout 随机森林分类器示例 ArrayIndexOutOfBoundsException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22611881/

文章推荐： java - 检测何时在 JTree 中单击展开/折叠(加号/减号)图标

文章推荐： java - Spring MVC + hibernate 从数据库批量加载

文章推荐： java - 将样式应用于 Android 字符串中的文本

mahout - mahout 的推荐评估器的工作原理
谁能告诉我 mahout 的 RecommenderIRStatsEvaluator 是如何工作的？更具体地说，它如何随机拆分训练和测试数据以及结果与哪些数据进行比较？基于我的低估，您需要某种理想/预
mahout - 在 mahout-0.6 上运行 “Mahout in Action” 中的示例代码时出现 IOException
我正在学习 Mahout 并阅读“Mahout in Action”。当我尝试运行第 7 章 SimpleKMeansClustering.java 中的示例代码时，弹出了一个异常: 线程“main
mahout - 如何读取 Mahout 聚类输出
我已经在 Mahout 教程中的合成控制数据上运行了 k-Means 聚类算法，并且想知道是否有人可以解释如何解释输出。我运行了 clusterdump 并收到了如下所示的输出(为了节省空间而被截断)
mahout - 针对 Mahout 推荐器使用多个加权数据模型
我有一个基于用户相似性的 bool 偏好推荐器。我的数据集本质上包含关系，其中 ItemId 是用户决定阅读的文章。我想添加第二个数据模型，其中包含 ItemId 是对特定主题的订阅。我能想到的唯一
mahout - Apache Mahout - 学习先决条件
对于机器学习新手来说，高效使用 Apache Mahout 的学习先决条件是什么？我知道 Mahout 的提交者需要微积分、线性代数、概率和机器学习才能贡献任何有用的东西。但是 Apache Mah
mahout - 创建 mahout 模型时出错
我正在为我的数据训练 mahout 分类器，按照我发出的创建 mahout 模型的命令 ./bin/mahout seqdirectory -i /tmp/mahout-work-root/MyDa
mahout - 如何加速基于 Mahout 项目的推荐系统？
我正在读取大约 700 万行数据，当我重新启动应用程序时，加载所有内容需要将近两分钟的时间。我试图找出加快速度的最佳方法，以便最多只需几秒钟即可重新启动应用程序。这是我希望加快速度的代码以及当前所需的
mahout - 使用 Apache Mahout 创建基于项目的推荐系统
我正在尝试使用 Apache Mahout 创建一个基于项目的推荐器，该推荐器根据其他用户也有共同点的相似项目推荐后备项目。我首先创建一个数据模型，然后尝试将它传递给各种不同的 ItemSimila
mahout - Apache Mahout + Pearson 相关性会忽略对每个项目具有相同偏好的用户
我使用 Mahout 和 Pearson 相关算法来根据用户对多个项目的偏好来比较和查找相似用户。我遇到的问题是 Mahout 和/或 Pearson 忽略了为每个项目选择相同偏好的用户。有谁知道是否
mahout - apache mahout 中的 nGram
我正在通过 apache mahout 运行朴素贝叶斯分类器算法。我们可以选择在训练和运行算法实例时设置克大小。将 n-Gram 大小从 1 更改为 2，会极大地改变最终的分类。为什么会出现这种情况
mahout - Apache Mahout 中 LDA 的输入应该是什么
任何人都可以建议 Mahout 到底想要应用 LDA 的输入类型吗？如果有人请详细写下以获取输出，那就太好了最佳答案关于 mahout 中最新形式的 LDA 的文档有点稀疏。现在它被称为“cvb”
mahout - 在 Mahout 中实现 SVD 推荐器
我有一个包含 5000 万个用户偏好的数据集，其中包含 800 万个不同的用户和 18 万个不同的产品。我目前正在使用 bool 数据模型，并有一个基于谷本相似性的基本推荐器。我正在尝试探索不同的算法
mahout - 在学习 Mahout 之前我需要掌握 Hadoop 吗？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
mahout - 使用 Mahout 训练 LDA 并检索其主题
我正在尝试 Apache Mahout，有很多关于如何使用 LDA 生成主题模型的信息，但是关于如何使用新的 CVB lda 算法执行相同操作的信息很少。我想要做的是生成单词到主题的概率，类似于原始的
mahout - 如何在实际项目中使用 mahout naive bayes 模型
我的环境: 驯象师:0.7 Hadoop:1.0.3 我做了什么: 安装了 mahout，并测试了朴素的贝叶斯示例 - 20newsgroup，它运行良好。我想要达到的目标: 有 trainnb 和
mahout - 在 mahout 0.8 中运行 cvb
当前的 Mahout 0.8-SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 (cvb) 版本并删除了潜在狄利克雷分析 (lda) 方法，因为 cvb 可以更好地并行化。不幸的是，只有 lda 的
mahout - Apache Mahout : how to handle dynamic data rating
我所说的动态数据评级是指基于时间的推荐系统。电影推荐的一个示例用例，推荐引擎读取用户历史电影观看数据并发现用户喜欢在周末观看 Action 片，引擎应该对 Action 片评分较高。然而，由于历史
mahout - 如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类？
我有一个包含数据向量的文件，其中每一行都包含一个以逗号分隔的值列表。我想知道如何使用 mahout 对这些数据执行 k 均值聚类。维基中提供的示例提到了创建序列文件，但我不确定是否需要进行某种类型的转
mahout - 如何在 Mahout 0.9 中实现 SlopeOne 推荐器？
我是 Mahout 的新手，正在尝试使用 0.5 版本的“Mahout in Action”。早期的示例之一要求使用斜率一推荐器。这个推荐器是否仍然包含在 Mahout 0.9 中？我已经浏览了文档，
hadoop - mahout 不会启动。与 hadoop 和 mahout 之间的兼容版本有什么关系？
我是 hadoop 的新手，更不用说 mahout 了。我希望有人可以帮助我通过这里..已经尝试了 2 天.. 我已经有一个 hadoop 集群在运行。我正在使用 hadoop-2.0.0-alph

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Mahout 随机森林分类器示例 ArrayIndexOutOfBoundsException