python - PySpark 应用程序失败，出现 java.lang.OutOfMemoryError : Java heap space-6ren

python - PySpark 应用程序失败，出现 java.lang.OutOfMemoryError : Java heap space

转载作者：太空宇宙更新时间：2023-11-03 11:17:47

28

4

我分别通过 pycharm 和 pyspark shell 运行 spark。我遇到了这个错误:

: java.lang.OutOfMemoryError: Java heap space
    at org.apache.spark.api.python.PythonRDD$.readRDDFromFile(PythonRDD.scala:416)
    at org.apache.spark.api.python.PythonRDD.readRDDFromFile(PythonRDD.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
    at py4j.Gateway.invoke(Gateway.java:259)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:209)
    at java.lang.Thread.run(Thread.java:748)

我的代码是:

from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
import time

if __name__ == '__main__':

    print("Started at " + time.strftime("%H:%M:%S"))

    conf = (SparkConf()
            .setAppName("TestRdd") \
            .set('spark.driver.cores', '1') \
            .set('spark.executor.cores', '1') \
            .set('spark.driver.memory', '16G') \
            .set('spark.executor.memory', '9G'))
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize(range(1000000000),100)

    print(rdd.take(10))

    print("Finished at " + time.strftime("%H:%M:%S"))

这些是最大内存设置，我可以在集群上设置。我试图将所有内存分配给 1 个核心来创建 rdd。但在我看来，应用程序在分发数据集之前失败了。它无法创建我假设的步骤。我还尝试设置不同数量的分区 100-10000。我已经计算了它需要多少内存，所以 10 亿个 int - 内存中大约 4.5-4.7Gb，比我少，但没有运气。

如何优化并强制运行我的代码？

最佳答案

TL;DR 不要在测试和简单实验之外使用parallelize。因为您使用 Python 2.7，range 不是惰性的，所以您将实现多种类型的完整值范围:

调用后的 Python list。
稍后将写入磁盘的序列化版本。
在 JVM 上加载的序列化副本。

使用 xrange 会有所帮助，但您首先不应使用 parallelize(或 2018 年的 Python 2)。

如果您想创建一系列值，只需使用 SparkContext.range

range(start, end=None, step=1, numSlices=None)

Create a new RDD of int containing elements from start to end (exclusive), increased by step every element. Can be called the same way as python’s built-in range() function. If called with a single argument, the argument is interpreted as end, and start is set to 0.

所以在你的情况下:

rdd = sc.range(1000000000, numSlices=100)

使用DataFrame:

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.range(1000000000, numPartitions=100)

关于python - PySpark 应用程序失败，出现 java.lang.OutOfMemoryError : Java heap space，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48708480/

28

4

0

文章推荐： python - 列之间的计算(经度/纬度)非常慢

文章推荐： sql - 确定记录的出现次数

文章推荐： sql - 帮助选择计数查询

文章推荐： python - 使用 Python 中的请求将文件上传到 Google 云端硬盘

heap-memory - !heap -x -v 和 !heap -flt s 之间的矛盾
我正在分析一个显示一些奇怪的转储:命令 !heap -x -v hexadecimal_address 之间似乎存在矛盾。和 !heap -flt s size_of_block 我正在询问悬空指针。
heap-memory - 免费商店的术语 "heap"的由来是什么？
我试图找到免费商店通常被称为堆的官方(或足够好的)原因。除了它从数据段的末尾增长这一事实之外，我真的想不出一个很好的理由，尤其是因为它与堆数据结构几乎没有关系。注意:很多人提到它只是一堆无组织的东
heap - 没有数组的 MinMax Heap 实现
我发现了很多 MinMax Heap 实现，它们将数据存储在一个数组中。这真的很容易实现，这就是我正在寻找不同的东西的方式。我想创建一个 MinMax 堆，只使用堆的元素和指向左 child 和右 c
java - "on-heap"和 "off-heap"之间的区别
Ehcache talks about堆内和堆外内存。有什么不同？使用哪些 JVM 参数来配置它们？最佳答案堆上存储是指将出现在 Java 堆中的对象(并且也会受到 GC)。另一方面，堆外存储是指
windbg - !heap –p –a VS !heap –x
多年来，我一直将 !heap –p –a 用于各种任务。现在我开始使用最新的 Win8 sdk 中的 WinDbg 6.2.9200 在 Win8 上进行调试。在这里，我发现 !heap –p –
heap-memory - !heap -stat -h 不显示分配
我试图确定为什么我的应用程序消耗 4GB 的私有(private)字节。所以我做了一个完整的内存转储，将它加载到windbg中。但是使用 !heap -stat -h 进行分析产生不加起来的奇怪结果:
heap-memory - !heap –s 显示 “Lock contention”
我正在分析 native 内存泄漏的转储，然后我观察到“锁争用”在 !heap –s 输出中。我不记得以前见过这个。这是什么意思？最佳答案这是堆管理器的锁争用。高锁争用通常是由大量并发分配请求引起
java - 内存不足错误 : Java heap memory (GC heap)
突然我的应用程序崩溃并弹出这个错误...知道这个错误吗？千辛万苦还是解决不了... 将目标 GC 堆从 111MB 钳制到 96MB Alloc 并发标记扫描 GC 释放了 3(96B) 个 Allo
java - 当 JVM 是 Heap 时，Heap 被释放
我需要在应用程序运行时监控 JVM 空间，我使用 JMC 进行监控，但是当我停止 tomcat 时，JMC 不工作。我的目标是我需要验证当应用程序关闭时所有堆内存(或某些部分)是否被释放以及它释放了
windows - Windbg !heap -s 和 !heap -stat 命令在输出上不一致
我有一个内存转储。在这个转储中，我有一个句柄为 fd00000 的堆。这是 !heap -s fd00000 命令输出的摘录: 0: Heap 0fd00000 Flags 00
Python:使用 Max-Heap 和 Min-Heap 查找运行中位数
我正在尝试返回一系列流媒体数字的运行中位数。为此，我使用最大堆(将值存储在序列的下半部分)和最小堆(将值存储在序列的上半部分)。特别是我使用 heapq 模块 ( https://docs.pyth
安卓 NDK : Dalvik Heap and Native Heap - How Separate Between the two
我知道 Android 平台中有 Dalvik(JVM) 堆和 native 堆。而且 Dalvik GC 在 native 堆上没有工作。但我不确定这是如何工作的，我的意思是 Android 操作系
java - -Xms : Initial heap size or minimum heap size?
-Xms是指定初始堆大小还是最小堆大小？我看到不同的观点。有些人喜欢 second answer here ，说它用于初始堆，而其他一些人说它是最小堆大小。还是说最小尺寸本身就是初始尺寸？最佳答案
java - Android dalvikvm-heap : Clamp target GC heap
我正在编写一个将大量联系人与 Android 联系人数据库同步的程序。对于大约 700 个联系人，下载工作正常，之后我不断收到内存堆错误，该错误调用无限数量的 GC 语句并最终重新启动手机。我正面临
c# - 如果 ON HEAP 和 OFF HEAP 内存已满，则逐出磁盘条目 APACHE IGNITE
我正在使用 Apache Ignite ver2.7，使用 Config.xml 设置启动 Ignite 服务器。 ./ignite.sh $IGNITE_HOME/config/config.xml
android - 无法执行 dex : Java heap space Java heap space
在 Eclipse IDE 中执行 Web 驱动程序脚本时，出现 Unable to execute dex: Java heap space Java heap space 错误。我已经用 Andr
Java5-XX :MaxHeapFreeRatio=45 doesn't release heap even when more than 45% of the heap is free
我有一个带有以下参数的 Java 应用程序，但即使总可用空间大于 45%(可以通过可视化 VM 看到)，堆也不会被回收。 JVM 是否有任何理由不释放该堆空间？相同的设置在 Java6 中按预期工作。
performancecounter - .NET CLR 内存 "Bytes in all heaps"远低于 "Gen 0 heap size"
我正在查看 ASP.NET 4 应用程序(工作流服务)的性能计数器 .NET CLR Memory -- # Bytes in all Heaps : 44,420,488 .NET CLR M
c++ - 为什么我的 C++ 程序在执行 tcmalloc heap-checker 或 heap-profile 时使用大量内存
CentOS Linux 发行版 7.3.1611 gcc 版本 4.8.5 20150623 gperftool 2.4-8.el7 1.my c++ 程序链接 -ltcmalloc 在没有 HEA
gradle - 为什么Gradle在Jenkins管道中使用 “Initial heap size set to a larger value than the maximum heap size”失败？
我创建了一个Gradle包装器 $ gradle wrapper --gradle-version 5.0 --distribution-type all ...现在有 $ ./gradlew -ve

首页

博学

6Ren·AI

商城

python - PySpark 应用程序失败，出现 java.lang.OutOfMemoryError : Java heap space