gpt4 book ai didi

apache-spark - 如何知道pyspark中广播变量可用的内存量?

转载 作者:行者123 更新时间:2023-12-02 02:57:38 24 4
gpt4 key购买 nike

我有一个在 pyspark 中使用的广播变量,我想知道我有多少可用空间。

我知道广播变量保留在 spark.executor.memory 内,但它是否必须适合存储范围?还是处理的限制?

我知道 spark.memory.fraction 用于确定 spark.executor.memory 用于存储的部分与用于处理的量。但是,假设我的 spark.executor.memory 是 10GB,spark.memory.fraction0.75

广播变量是否必须小于2.5GB或小于5GB

这是 pyspark 1.6.1。

此外,这里有一个可以作为引用点的资源:https://0x0fff.com/spark-memory-management/
我不明白那篇文章中的“用户内存”是什么。

编辑:作为此问题的扩展,如果知道缓存表的存储位置,那就太好了。它们与广播变量位于同一位置吗?或者不同的地方?在我看来,这些都在 spark.memory.storageFraction 内部。

最佳答案

广播变量存储在Python进程的内存中(JVM上也有序列化副本)。所以使用的内存部分是执行内存。

请记住,PySpark 为每个 Spark 核心保留变量的副本。所以实际的内存限制更接近

(`spark.executor.memory` * `spark.memory.fraction`) / `spark.executor.cores`

关于apache-spark - 如何知道pyspark中广播变量可用的内存量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47705657/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com