gpt4 book ai didi

hadoop - Mahout - ParallelALSFactorizationJob 运行时间过长?

转载 作者:可可西里 更新时间:2023-11-01 15:32:37 27 4
gpt4 key购买 nike

我正在尝试在 AWS EMR 集群上运行 Mahout ALS 推荐,但是,它花费的时间比我预期的要长得多。

以下是我运行的命令:

aws add-steps --cluster-id <cluster_id> \
--steps Type=CUSTOM_JAR,\
Name="Mahout ALS Factorization Job",\
Jar=s3://<my_bucket>/recproto/mahout-mr-0.10.0-job.jar,\
MainClass=org.apache.mahout.cf.taste.hadoop.als.ParallelALSFactorizationJob,\
Args=["--input","s3://<my_bucket>/recproto/trainingdata/userClicks.csv.gz",\
"--output","s3://<my_bucket>/recproto/als-output/",\
"--implicitFeedback","true",\
"--lambda","150",\
"--alpha","0.05",\
"--numFeatures","100",\
"--numIterations","3",\
"--numThreadsPerSolver","4",\
"--usesLongIDs","true"]

在 userClicks.csv 文件中,有来自335,636 位用户1,567,808 次评分23,934 项

作业运行在10-c3.xlarge nodes EMR集群上,作业已经运行了2个多小时。我想知道这正常吗?对于我的评级文件,我应该使用哪种规模的 EMR 集群和参数才能获得更可接受的运行时间?

最佳答案

我通过简单地使用 Spark ALS 解决了这个问题。在具有相同参数的相同数据集上,训练过程花费不到 2 分钟在我的笔记本电脑上

我现在可以理解为什么某些机器学习算法由于性能问题而被弃用了......(例如,Minhash 算法)

关于hadoop - Mahout - ParallelALSFactorizationJob 运行时间过长?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30296549/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com