- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我分别通过 pycharm 和 pyspark shell 运行 spark。我遇到了这个错误:
: java.lang.OutOfMemoryError: Java heap space
at org.apache.spark.api.python.PythonRDD$.readRDDFromFile(PythonRDD.scala:416)
at org.apache.spark.api.python.PythonRDD.readRDDFromFile(PythonRDD.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
at py4j.Gateway.invoke(Gateway.java:259)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:209)
at java.lang.Thread.run(Thread.java:748)
我的代码是:
from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
import time
if __name__ == '__main__':
print("Started at " + time.strftime("%H:%M:%S"))
conf = (SparkConf()
.setAppName("TestRdd") \
.set('spark.driver.cores', '1') \
.set('spark.executor.cores', '1') \
.set('spark.driver.memory', '16G') \
.set('spark.executor.memory', '9G'))
sc = SparkContext(conf=conf)
rdd = sc.parallelize(range(1000000000),100)
print(rdd.take(10))
print("Finished at " + time.strftime("%H:%M:%S"))
这些是最大内存设置,我可以在集群上设置。我试图将所有内存分配给 1 个核心来创建 rdd。但在我看来,应用程序在分发数据集之前失败了。它无法创建我假设的步骤。我还尝试设置不同数量的分区 100-10000。我已经计算了它需要多少内存,所以 10 亿个 int - 内存中大约 4.5-4.7Gb,比我少,但没有运气。
如何优化并强制运行我的代码?
最佳答案
TL;DR 不要在测试和简单实验之外使用parallelize
。因为您使用 Python 2.7,range
不是惰性的,所以您将实现多种类型的完整值范围:
list
。使用 xrange
会有所帮助,但您首先不应使用 parallelize
(或 2018 年的 Python 2)。
如果您想创建一系列值,只需使用 SparkContext.range
range(start, end=None, step=1, numSlices=None)
Create a new RDD of int containing elements from start to end (exclusive), increased by step every element. Can be called the same way as python’s built-in range() function. If called with a single argument, the argument is interpreted as end, and start is set to 0.
所以在你的情况下:
rdd = sc.range(1000000000, numSlices=100)
使用DataFrame
:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.range(1000000000, numPartitions=100)
关于python - PySpark 应用程序失败,出现 java.lang.OutOfMemoryError : Java heap space,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48708480/
我正在分析一个显示一些奇怪的转储:命令 !heap -x -v hexadecimal_address 之间似乎存在矛盾。和 !heap -flt s size_of_block 我正在询问悬空指针。
我试图找到免费商店通常被称为堆的官方(或足够好的)原因。 除了它从数据段的末尾增长这一事实之外,我真的想不出一个很好的理由,尤其是因为它与堆数据结构几乎没有关系。 注意:很多人提到它只是一堆无组织的东
我发现了很多 MinMax Heap 实现,它们将数据存储在一个数组中。这真的很容易实现,这就是我正在寻找不同的东西的方式。我想创建一个 MinMax 堆,只使用堆的元素和指向左 child 和右 c
Ehcache talks about堆内和堆外内存。有什么不同?使用哪些 JVM 参数来配置它们? 最佳答案 堆上存储是指将出现在 Java 堆中的对象(并且也会受到 GC)。另一方面,堆外存储是指
多年来,我一直将 !heap –p –a 用于各种任务。 现在我开始使用最新的 Win8 sdk 中的 WinDbg 6.2.9200 在 Win8 上进行调试。 在这里,我发现 !heap –p –
我试图确定为什么我的应用程序消耗 4GB 的私有(private)字节。所以我做了一个完整的内存转储,将它加载到windbg中。但是使用 !heap -stat -h 进行分析产生不加起来的奇怪结果:
我正在分析 native 内存泄漏的转储,然后我观察到“锁争用”在 !heap –s 输出中。我不记得以前见过这个。这是什么意思? 最佳答案 这是堆管理器的锁争用。高锁争用通常是由大量并发分配请求引起
突然我的应用程序崩溃并弹出这个错误...知道这个错误吗?千辛万苦还是解决不了... 将目标 GC 堆从 111MB 钳制到 96MB Alloc 并发标记扫描 GC 释放了 3(96B) 个 Allo
我需要在应用程序运行时监控 JVM 空间,我使用 JMC 进行监控,但是当我停止 tomcat 时,JMC 不工作。 我的目标是我需要验证当应用程序关闭时所有堆内存(或某些部分)是否被释放以及它释放了
我有一个内存转储。在这个转储中,我有一个句柄为 fd00000 的堆。这是 !heap -s fd00000 命令输出的摘录: 0: Heap 0fd00000 Flags 00
我正在尝试返回一系列流媒体数字的运行中位数。为此,我使用最大堆(将值存储在序列的下半部分)和最小堆(将值存储在序列的上半部分)。 特别是我使用 heapq 模块 ( https://docs.pyth
我知道 Android 平台中有 Dalvik(JVM) 堆和 native 堆。而且 Dalvik GC 在 native 堆上没有工作。但我不确定这是如何工作的,我的意思是 Android 操作系
-Xms是指定初始堆大小还是最小堆大小?我看到不同的观点。有些人喜欢 second answer here ,说它用于初始堆,而其他一些人说它是最小堆大小。 还是说最小尺寸本身就是初始尺寸? 最佳答案
我正在编写一个将大量联系人与 Android 联系人数据库同步的程序。对于大约 700 个联系人,下载工作正常,之后我不断收到内存堆错误,该错误调用无限数量的 GC 语句并最终重新启动手机。我正面临
我正在使用 Apache Ignite ver2.7,使用 Config.xml 设置启动 Ignite 服务器。 ./ignite.sh $IGNITE_HOME/config/config.xml
在 Eclipse IDE 中执行 Web 驱动程序脚本时,出现 Unable to execute dex: Java heap space Java heap space 错误。我已经用 Andr
我有一个带有以下参数的 Java 应用程序,但即使总可用空间大于 45%(可以通过可视化 VM 看到),堆也不会被回收。 JVM 是否有任何理由不释放该堆空间?相同的设置在 Java6 中按预期工作。
我正在查看 ASP.NET 4 应用程序(工作流服务)的性能计数器 .NET CLR Memory -- # Bytes in all Heaps : 44,420,488 .NET CLR M
CentOS Linux 发行版 7.3.1611 gcc 版本 4.8.5 20150623 gperftool 2.4-8.el7 1.my c++ 程序链接 -ltcmalloc 在没有 HEA
我创建了一个Gradle包装器 $ gradle wrapper --gradle-version 5.0 --distribution-type all ...现在有 $ ./gradlew -ve
我是一名优秀的程序员,十分优秀!