scala - spark 2.2 cache() 导致驱动程序 OutOfMemoryerror-6ren

scala - spark 2.2 cache() 导致驱动程序 OutOfMemoryerror

转载作者：行者123 更新时间：2023-12-04 16:05:13

27

4

我在 AWS EMR (Zeppling/spark-shell) 上使用 Scala 运行 Spark 2.2。

我正在尝试计算非常简单的计算:加载、过滤、缓存和计算大型数据集。我的数据包含 4,500 GB (4.8 TB) ORC 格式，有 51,317,951,565(510 亿)行。

首先，我尝试使用以下集群进行处理:

1 master node - m4.xlarge - 4 cpu, 16 gb Mem

150 core nodes - r3.xlarge - 4 cpu, 29 gb Mem

150 tasks nodes - r3.xlarge - 4 cpu, 29 gb Mem

但它失败了 OutOfMemoryError .

当我查看 Spark UI 和 Ganglia 时，我看到在应用程序加载超过 80% 的数据后，驱动程序节点变得太忙，而执行程序停止工作(CPU 使用率非常低)直到它崩溃。

Ganglia CPU usage for master and worker nodes

然后我尝试通过增加驱动程序节点来执行相同的过程:

1 master node - m4.2xlarge - 8 cpu, 31 gb Mem

它成功了。

我不明白为什么 Driver 节点的内存使用会在它崩溃之前得到满足。 AFAIK 只有 executors 加载和处理任务，数据不应传递给 master。可能是什么原因？

1) Ganglia Master Node usage for the second scenario

2) Spark UI stages

3) Spark UI DAG visualization

您可以在下面找到代码:

import org.apache.spark.SparkConf
import org.apache.spark.sql.{Dataset, SaveMode, SparkSession, DataFrame}
import org.apache.spark.sql.functions.{concat_ws, expr, lit, udf}
import org.apache.spark.storage.StorageLevel

val df = spark.sql("select * from default.level_1 where date_  >= ('2017-11-08') and date_  <= ('2017-11-27')")
.drop("carrier", "city", "connection_type", "geo_country", "geo_country","geo_lat","geo_lon","geo_lon","geo_type", "ip","keywords","language","lat","lon","store_category","GEO3","GEO4")
.where("GEO4 is not null")
.withColumn("is_away", lit(0))


df.persist(StorageLevel.MEMORY_AND_DISK_SER)
df.count()

您可以在下面找到错误消息 -

{"Event":"SparkListenerLogStart","Spark Version":"2.2.0"}
{"Event":"SparkListenerBlockManagerAdded","Block Manager ID":{"Executor ID":"driver","Host":"10.44.6.179","Port":44257},"Maximum Memory":6819151872,"Timestamp":1512024674827,"Maximum Onheap Memory":6819151872,"Maximum Offheap Memory":0}
{"Event":"SparkListenerEnvironmentUpdate","JVM Information":{"Java Home":"/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.141-1.b16.32.amzn1.x86_64/jre","Java Version":"1.8.0_141 (Oracle Corporation)","Scala Version":"version 2.11.8"},"Spark Properties":{"spark.sql.warehouse.dir":"hdfs:///user/spark/warehouse","spark.yarn.dist.files":"file:/etc/spark/conf/hive-site.xml","spark.executor.extraJavaOptions":"-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:MaxHeapFreeRatio=70 -XX:+CMSClassUnloadingEnabled -XX:OnOutOfMemoryError='kill -9 %p'","spark.driver.host":"10.44.6.179","spark.history.fs.logDirectory":"hdfs:///var/log/spark/apps","spark.eventLog.enabled":"true","spark.driver.port":"33707","spark.shuffle.service.enabled":"true","spark.driver.extraLibraryPath":"/usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native","spark.repl.class.uri":"spark://10.44.6.179:33707/classes","spark.jars":"","spark.yarn.historyServer.address":"ip-10-44-6-179.ec2.internal:18080","spark.stage.attempt.ignoreOnDecommissionFetchFailure":"true","spark.repl.class.outputDir":"/mnt/tmp/spark-52cac1b4-614f-43a5-ab9b-5c60c6c1c5a5/repl-9389c888-603e-4988-9593-86e298d2514a","spark.app.name":"Spark shell","spark.scheduler.mode":"FIFO","spark.driver.memory":"11171M","spark.executor.instances":"200","spark.default.parallelism":"3200","spark.resourceManager.cleanupExpiredHost":"true","spark.executor.id":"driver","spark.yarn.appMasterEnv.SPARK_PUBLIC_DNS":"$(hostname -f)","spark.driver.extraJavaOptions":"-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:MaxHeapFreeRatio=70 -XX:+CMSClassUnloadingEnabled -XX:OnOutOfMemoryError='kill -9 %p'","spark.submit.deployMode":"client","spark.master":"yarn","spark.ui.filters":"org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter","spark.blacklist.decommissioning.timeout":"1h","spark.executor.extraLibraryPath":"/usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native","spark.sql.hive.metastore.sharedPrefixes":"com.amazonaws.services.dynamodbv2","spark.executor.memory":"20480M","spark.driver.extraClassPath":"/usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*:/usr/share/aws/emr/emrfs/conf:/usr/share/aws/emr/emrfs/lib/*:/usr/share/aws/emr/emrfs/auxlib/*:/usr/share/aws/emr/security/conf:/usr/share/aws/emr/security/lib/*:/usr/share/aws/hmclient/lib/aws-glue-datacatalog-spark-client.jar:/usr/share/java/Hive-JSON-Serde/hive-openx-serde.jar","spark.home":"/usr/lib/spark","spark.eventLog.dir":"hdfs:///var/log/spark/apps","spark.dynamicAllocation.enabled":"true","spark.executor.extraClassPath":"/usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*:/usr/share/aws/emr/emrfs/conf:/usr/share/aws/emr/emrfs/lib/*:/usr/share/aws/emr/emrfs/auxlib/*:/usr/share/aws/emr/security/conf:/usr/share/aws/emr/security/lib/*:/usr/share/aws/hmclient/lib/aws-glue-datacatalog-spark-client.jar:/usr/share/java/Hive-JSON-Serde/hive-openx-serde.jar","spark.sql.catalogImplementation":"hive","spark.executor.cores":"8","spark.history.ui.port":"18080","spark.driver.appUIAddress":"http://ip-10-44-6-179.ec2.internal:4040","spark.org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter.param.PROXY_HOSTS":"ip-10-44-6-

备注 -

1) 我尝试将 StorageLevel 更改为 cache()和 DISK_ONLY并没有影响结果。

2)我查看了“scratch space”的体积，发现90%以上还没有使用。

谢谢!!

最佳答案

我有一些假设，这可能是由 spark SQL 内部的机制引起的。

简而言之，spark SQL 将在驱动程序端收集所有广播数据集，以便当您有一个大查询时，驱动程序必须有足够的内存来保存广播数据。

相关link to the issue

关于scala - spark 2.2 cache() 导致驱动程序 OutOfMemoryerror，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47560023/

27

4

0

文章推荐： sql - 为什么探查器在第一次执行时总是读取更高以及如何降低它？

文章推荐： CKEditor - 触发对话框确定按钮

文章推荐：列上的 WPF DataGrid 绑定(bind)

caching - 我什么时候应该使用 Cache-Control : no-cache?
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c# - 如何修改CPU Cache L1、Cache L2、Cache L3？
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 8 年前。 Improve t
python - 为什么使用 apt.Cache 而不是 apt.cache.Cache() 创建对象
我卡在了一个点上，我无法进步，很抱歉这个愚蠢的问题。我为此进行了很多搜索，但我不知道我错过了什么。请帮助我。我研究了 python 中的模块和类。现在我想使用 python 和 apt 进行一些操作
caching - X-Cache-Status 始终使用 Kong proxy-cache 插件绕过
我在 Kong 有服务，我已经为该服务设置了代理缓存插件。 curl -X POST http://localhost:8001/plugins --data "name=proxy-cache"--
caching - ASP.NET 核心 WebAPI : Memory Caching vs Response Caching
ASP.NET Core 提供内存缓存和响应缓存。假设该应用程序是 ASP.NET Core WebAPI，它通过配置的响应缓存中间件将 SQL 数据库中的数据传送给用户。在什么情况下也使用内存缓
caching - 面试题 : Factorials and caching
我最近遇到了以下面试问题: You need to design a system to provide answers to factorials for between 1 and 100. Yo
jQuery 对象 : to cache or not to cache?
我的 Javascript (JS) 代码遇到了一些麻烦，因为我有时需要在同一个函数中多次访问相同的 DOM 元素。还提供了一些推理here . 从性能的角度来看，是一次性创建一个 jQuery 对象
caching - InterSystems Cache，在哪里可以找到全局定义
仅使用 Cache 终端，我使用或查看什么实用程序函数或 Global 来查找存在于 Cache 数据库中的所有 Globals 的列表？再次仅在缓存终端中使用，我使用或查看什么实用程序功能或全局以
jQuery 对象 : to cache or not to cache?
我的 Javascript (JS) 代码遇到了一些麻烦，因为有时我需要在同一个函数中多次访问同一个 DOM 元素。还提供了一些推理here . 从性能的角度来看，是先创建一个jQuery对象然后缓存
caching - Cache-Control 的无缓存和必须重新验证之间的区别？
来自 RFC 2616 http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html#sec14.9.1 no-cache If the no-cach
caching - Cache put item并发和吞吐量
大多数 CDN 服务器对经常访问的内容使用缓存。场景:假设有人上传了一张非常热门的图片，并且来自同一位置的许多用户 (1000) 试图访问该图片。问题:假设网络服务器收到一个请求，首先检查它的缓存
jQuery 对象 : to cache or not to cache?
我的 Javascript (JS) 代码遇到了一些麻烦，因为有时我需要在同一个函数中多次访问同一个 DOM 元素。还提供了一些推理here . 从性能的角度来看，是先创建一个jQuery对象然后缓存
caching - 如果 Cache-Control 有 `no-cache` 和 `max-age=900` 会发生什么？
如果我将服务器响应设置为:Cache-Control: private,no-cache,max-age=900 ? 如果标题是这样的，会发生什么:Cache-Control: public,no-c
.net - dotnet System.Web.Caching.Cache 与 System.Runtime.Caching.MemoryCache
我有一个类需要在缓存中存储数据。最初我在 ASP.NET 应用程序中使用它，所以我使用了 System.Web.Caching.Cache。现在我需要在 Windows 服务中使用它。现在，据我了解
caching - Drupal 7 & Varnish 4 - 我总是得到 X-Drupal-Cache : MISS but X-Cache: HIT
我遇到了和这个人一样的问题:X-Drupal-Cache for Drupal 7 website always hits MISS ，并且找不到出路。我正在运行 Drupal 7 - 新闻流和
php - 在 Laravel 中 artisan config :cache actually cache the config as specified in the cache. php 设置？
我已将 Laravel 设置为使用 Redis 作为缓存。当我使用 Cache::('my_var', 'my_val'); 然后通过 CLI 检查 Redis 以查看 key 是否已创建时，我可以验
Windows azure 缓存错误 - "Cache referred to does not exist. Contact administrator or use the Cache administration tool to create a Cache."
我在 Windows Azure 云上有一个应用程序，并且正在使用 Windows Azure 共置缓存。有时，当我发布网站/web服务时，调用DataCacheFactory.GetCache方法
caching - Apollo 服务器端缓存 : What is cache keyed on?
我正在阅读 documentation for Apollo server-side caching ，但看不到任何关于缓存通常如何加密的内容。我需要的是一个以响应中包含的对象 ID 为键的缓存，而
hibernate - Grails\hibernate : To cache or not to cache?
Hibernate\Grails 中最好的缓存策略是什么？是否缓存所有实体和查询以及如何找到最佳解决方案？这是我的 hibernate 配置。 hibernate { cache.use_sec
caching - 'Nuget.Proxy Cache' 的类型初始化程序引发异常
我收到错误 'Nuget.Proxy Cache' 的类型初始化器抛出异常尝试连接到 Nuget 官方包源时。我在公司网络后面，但是我怀疑问题是连接性。有任何想法吗？最佳答案我有同样的问题。我

首页

博学

6Ren·AI

商城

scala - spark 2.2 cache() 导致驱动程序 OutOfMemoryerror