hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类？-6ren

hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类？

转载作者：可可西里更新时间：2023-11-01 15:40:28

我在 Amazon 的 EMR (AMI 2.3.1) 上运行 Mahout 0.7 模糊 k-means 集群，并且我的内存不足。

我的总体问题:如何最轻松地让它发挥作用？

这是一个调用:

./bin/mahout fkmeans \
  --input s3://.../foo/vectors.seq \
  --output s3://.../foo/fuzzyk2 \
  --numClusters 128 \
  --clusters s3://.../foo/initial_clusters/ \
  --maxIter 20 \
  --m 2 \
  --method mapreduce \
  --distanceMeasure org.apache.mahout.common.distance.TanimotoDistanceMeasure

更详细的问题:

如何知道我使用了多少内存？我在 c1.xlarge 实例上。如果我相信AWS docs , 设置 mapred.child.java.opts=-Xmx512m。
如何知道我需要多少内存？我可以尝试不同的尺寸，但这让我不知道我可以处理的问题有多大。
如何更改我的内存使用情况？使用不同类别的机器启动不同的工作流程？尝试设置 mapred.child.java.opts？
我的数据集似乎没有那么大。是吗？

vectors.seq是稀疏向量的集合，有50225个向量(50225 事物与 124420 其他事物相关)，总计 1.2M 关系。

This post说 set --method mapreduce，我是，这是默认。

This post表示所有集群都保存在每个映射器的内存中，并且 reducer 。那就是4*124420=498K的东西，好像也不算太多不好。

这是堆栈:

13/04/19 18:12:53 INFO mapred.JobClient: Job complete: job_201304161435_7034
13/04/19 18:12:53 INFO mapred.JobClient: Counters: 7
13/04/19 18:12:53 INFO mapred.JobClient:   Job Counters 
13/04/19 18:12:53 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=28482
13/04/19 18:12:53 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
13/04/19 18:12:53 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
13/04/19 18:12:53 INFO mapred.JobClient:     Rack-local map tasks=4
13/04/19 18:12:53 INFO mapred.JobClient:     Launched map tasks=4
13/04/19 18:12:53 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=0
13/04/19 18:12:53 INFO mapred.JobClient:     Failed map tasks=1
Exception in thread "main" java.lang.InterruptedException: Cluster Iteration 1 failed processing s3://.../foo/fuzzyk2/clusters-1
        at org.apache.mahout.clustering.iterator.ClusterIterator.iterateMR(ClusterIterator.java:186)
        at org.apache.mahout.clustering.fuzzykmeans.FuzzyKMeansDriver.buildClusters(FuzzyKMeansDriver.java:288)
        at org.apache.mahout.clustering.fuzzykmeans.FuzzyKMeansDriver.run(FuzzyKMeansDriver.java:221)
        at org.apache.mahout.clustering.fuzzykmeans.FuzzyKMeansDriver.run(FuzzyKMeansDriver.java:110)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.mahout.clustering.fuzzykmeans.FuzzyKMeansDriver.main(FuzzyKMeansDriver.java:52)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
        at java.lang.reflect.Method.invoke(Method.java:597)
        at org.apache.hadoop.util.ProgramDriver$ProgramDescription.invoke(ProgramDriver.java:68)
        at org.apache.hadoop.util.ProgramDriver.driver(ProgramDriver.java:139)
        at org.apache.mahout.driver.MahoutDriver.main(MahoutDriver.java:195)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
        at java.lang.reflect.Method.invoke(Method.java:597)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:187)

这是映射器日志的一部分:

2013-04-19 18:10:38,734 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Received IOException while reading '.../foo/vectors.seq', attempting to reopen.
java.net.SocketTimeoutException: Read timed out
        at java.net.SocketInputStream.socketRead0(Native Method)
        at java.net.SocketInputStream.read(SocketInputStream.java:129)
        at com.sun.net.ssl.internal.ssl.InputRecord.readFully(InputRecord.java:293)
        at com.sun.net.ssl.internal.ssl.InputRecord.readV3Record(InputRecord.java:405)
        at com.sun.net.ssl.internal.ssl.InputRecord.read(InputRecord.java:360)
        at com.sun.net.ssl.internal.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:798)
        at com.sun.net.ssl.internal.ssl.SSLSocketImpl.readDataRecord(SSLSocketImpl.java:755)
        at com.sun.net.ssl.internal.ssl.AppInputStream.read(AppInputStream.java:75)
        at org.apache.http.impl.io.AbstractSessionInputBuffer.read(AbstractSessionInputBuffer.java:187)
        at org.apache.http.impl.io.ContentLengthInputStream.read(ContentLengthInputStream.java:164)
        at org.apache.http.conn.EofSensorInputStream.read(EofSensorInputStream.java:138)
        at java.io.FilterInputStream.read(FilterInputStream.java:116)
        at org.apache.hadoop.fs.s3native.NativeS3FileSystem$NativeS3FsInputStream.read(NativeS3FileSystem.java:291)
        at java.io.BufferedInputStream.fill(BufferedInputStream.java:218)
        at java.io.BufferedInputStream.read1(BufferedInputStream.java:258)
        at java.io.BufferedInputStream.read(BufferedInputStream.java:317)
        at java.io.DataInputStream.readFully(DataInputStream.java:178)
        at org.apache.hadoop.io.DataOutputBuffer$Buffer.write(DataOutputBuffer.java:63)
        at org.apache.hadoop.io.DataOutputBuffer.write(DataOutputBuffer.java:101)
        at org.apache.hadoop.io.SequenceFile$Reader.next(SequenceFile.java:2060)
        at org.apache.hadoop.io.SequenceFile$Reader.next(SequenceFile.java:2194)
        at org.apache.hadoop.mapreduce.lib.input.SequenceFileRecordReader.nextKeyValue(SequenceFileRecordReader.java:68)
        at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:540)
        at org.apache.hadoop.mapreduce.MapContext.nextKeyValue(MapContext.java:67)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:143)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:771)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:375)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1132)
        at org.apache.hadoop.mapred.Child.main(Child.java:249)
2013-04-19 18:10:38,737 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Stream for key '.../foo/vectors.seq' seeking to position '62584'
2013-04-19 18:10:42,619 INFO org.apache.hadoop.mapred.TaskLogsTruncater (main): Initializing logs' truncater with mapRetainSize=-1 and reduceRetainSize=-1
2013-04-19 18:10:42,730 INFO org.apache.hadoop.io.nativeio.NativeIO (main): Initialized cache for UID to User mapping with a cache timeout of 14400 seconds.
2013-04-19 18:10:42,730 INFO org.apache.hadoop.io.nativeio.NativeIO (main): Got UserName hadoop for UID 106 from the native implementation
2013-04-19 18:10:42,733 FATAL org.apache.hadoop.mapred.Child (main): Error running child : java.lang.OutOfMemoryError: Java heap space
        at org.apache.mahout.math.map.OpenIntDoubleHashMap.rehash(OpenIntDoubleHashMap.java:434)
        at org.apache.mahout.math.map.OpenIntDoubleHashMap.put(OpenIntDoubleHashMap.java:387)
        at org.apache.mahout.math.RandomAccessSparseVector.setQuick(RandomAccessSparseVector.java:139)
        at org.apache.mahout.math.AbstractVector.assign(AbstractVector.java:560)
        at org.apache.mahout.clustering.AbstractCluster.observe(AbstractCluster.java:253)
        at org.apache.mahout.clustering.AbstractCluster.observe(AbstractCluster.java:241)
        at org.apache.mahout.clustering.AbstractCluster.observe(AbstractCluster.java:37)
        at org.apache.mahout.clustering.classify.ClusterClassifier.train(ClusterClassifier.java:158)
        at org.apache.mahout.clustering.iterator.CIMapper.map(CIMapper.java:55)
        at org.apache.mahout.clustering.iterator.CIMapper.map(CIMapper.java:18)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:771)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:375)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1132)
        at org.apache.hadoop.mapred.Child.main(Child.java:249)

最佳答案

是的，您的内存不足。据我所知，“内存密集型工作负载”引导操作早已被弃用，因此可能什么都不做。请参阅该页面上的注释。

c1.xlarge 应该使用 384MB per mapper默认。当您减去所有 JVM 开销、拆分和合并的空间等时，您可能没有剩下很多。

您在引导操作中设置 Hadoop 参数。如果使用控制台并设置类似 --site-key-value mapred.map.child.java.opts=-Xmx1g

的内容，请选择“配置 Hadoop”操作

(如果您以编程方式执行此操作并且遇到任何问题，请离线联系我；我可以提供来自 Myrrix 的片段，因为它在推荐/集群作业中对 EMR 集群进行了大量调整以提高速度。)

您可以设置 mapred.map.java.child.opts 来单独控制映射器和缩减器。您还可以降低每台机器的映射器数量以腾出更多空间，或者选择高内存实例。我通常发现 ml.xlarge 是 EMR 的最佳选择，因为价格与 I/O 的比率，并且因为大多数作业最终都受 I/O 限制。

关于hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16113102/

文章推荐： hadoop - hadoop作业实际处理时间

文章推荐： c++ - 如何专门化模板类的某些成员？

文章推荐： c++ - VC++6/Win32工程转VS2010 C++/Win32工程: Known issues

文章推荐： hadoop - pig 加入Cloudera VM

Azure SNAT 耗尽 - 我如何知道它何时发生？
我们认为 Cloud Foundry 中的一组虚拟机存在 Azure SNAT 耗尽问题。这些机器不经过负载平衡器。我已经浏览过这份文件: https://learn.microsoft.com/e
java - GLES2 TouchEventPool 耗尽
我正在使用 onSceneTouchEvent 在 TMX map 上移动玩家: @Override public Scene onCreateScene() { ...
Python 子进程引用导致 fd 耗尽
关于这篇文章:Python del Statement , 我最近遇到了以下片段: # custom_process.py import threading import subprocess myL
python - 保留文件描述符以防止 FD 耗尽
我有一个具有多个线程的 python 应用程序，其中线程 2 到 n 可能会打开任意数量的文件。我想确保当线程 1 尝试打开文件时，它绝对不会因为文件描述符耗尽而失败。简而言之，我想保留文件描述符而不
c# 多线程应用程序中的 TCP 耗尽
我开发了一个 c# .net 4 应用程序，它每天对组织中的每台计算机(超过 70,000 台)执行 WMI 查询。由于与此线程无关的原因，我无法从服务器运行该应用程序，而是从我的 Windows X
python - pytorch 耗尽 GPU 内存
我正在尝试在 pytorch 中实现 Yolo-v2。但是，我似乎只是通过网络传递数据而耗尽了内存。该模型很大，如下所示。但是，我觉得我在用我的网络做一些愚蠢的事情(比如不在某处释放内存)。网络在 c
android - 如何在 Android 中进行应用程序明智的电池使用/耗尽
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
Python Postgres psycopg2 ThreadedConnectionPool 耗尽
我在这里查看了几个与“太多客户”相关的主题，但仍然无法解决我的问题，所以我必须针对我的具体情况再次询问。基本上，我设置了本地 Postgres 服务器并需要进行数万次查询，所以我使用了 Python
c++ - 耗尽 std::random_device 的熵
我正在使用 std::random_device 并想检查它的剩余熵。根据 cppreference.com: std::random_device::entropy double entropy()
macos - docker 卷上的 inode 耗尽
我有以下 docker-compos.yml 文件: web: build: . ports: - "4200:4200" - "35729:35729" vo
linux - Linux 中的进程 ID 耗尽
如果 Linux 操作系统用完进程 ID 会怎样？是否会删除较旧的进程以释放空间以适应 future 的请求？最佳答案我假设您问的是达到进程限制时会发生什么。在这种情况下，系统不允许创建新进程，直
azure-sql-database - 创建新索引时防止 DTU 耗尽
我们将 Azure SQL 用作单个数据库并在 DTU 定价模型下使用。我们有一个包含约 50M 条记录的表，我们想在单个字符串属性上添加一个新的非聚集索引。问题是这是一个生产数据库。如果我使用简单
c# - Azure 服务总线监听器打开太多 TCP 连接(耗尽)
我们有多个服务总线监听器在应用服务内作为连续的 Azure Webjobs 运行。总共有 12 个监听器 Web 作业在同一个 S1 应用服务计划上运行。环境很小，每天总共大约有~1000-10000
Azure WebApp SNAT 耗尽 - 私有(private)终结点能否改进
Der Azure 网络专家，我们的 Web 应用程序经常耗尽出站 TCP 连接。大多数出站连接实际上是 Azure 内部连接(SQL、BlobStore、后端服务)。但我们还没有虚拟网络和专用端点
c++ - 为什么需要 sleep(1) 来让 socket 耗尽？
我下载了一个简单的静态网络服务器的源代码 http://www.ibm.com/developerworks/systems/library/es-nweb/sidefile1.html 但是，我对第
ruby-on-rails - Rails Puma 耗尽 Redis 连接
我已经查看了有关 SO 的其他类似问题，但无法很好地将所有内容拼凑在一起。我有一个 Rails 应用程序(在 Heroku 上)，它使用具有多进程和多线程的 Puma。我的应用程序还使用 Redis
go - 为什么 request.ParseForm() 耗尽 request.Body？
在此代码中，如果我对 ParseForm() 调用进行注释，请求将按预期工作 package main import ( "fmt" "net/http" "net/url"
PHPExcel 耗尽 256、512 和 1024MB RAM
我不明白。 XSLX 表大约有 3MB 大，但即使是 1024MB 的 RAM 也不足以让 PHPExcel 将其加载到内存中吗？我这里可能做错了什么: function ReadXlsxTable
spring-integration - 使用 WebSphere MQ 耗尽 JMS 连接
我已配置 CachingConnectionFactory包装了一个 MQTopicConnectionFactory和 MQQueueConnectionFactory每个缓存大小设置为 10。这
php - 为什么 PHP Allowed memory size of 134217728 bytes 耗尽？
我正在检查 CodeEval 中的一些问题并在 PHP 中遇到这个奇怪的错误。我没有用其他语言遇到过这样的事情，所以我不知道为什么会发生这种情况。不包括整个答案(请不要帮我找到解决方案，除了 PHP

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类？