apache-spark - 如何通过增加 spark 的内存来解决 pyspark `org.apache.arrow.vector.util.OversizedAllocationException` 错误？-6ren

apache-spark - 如何通过增加 spark 的内存来解决 pyspark `org.apache.arrow.vector.util.OversizedAllocationException` 错误？

转载作者：行者123 更新时间：2023-12-03 18:28:39

29

4

我在 pyspark 工作我曾一度使用 grouped aggregate Pandas UDF .这会导致以下(此处为缩写)错误:

org.apache.arrow.vector.util.OversizedAllocationException: Unable to expand the buffer

我相当确定这是因为 Pandas UDF 接收的组之一很大，如果我减少数据集并删除足够的行，我可以毫无问题地运行我的 UDF。但是，我想使用我的原始数据集运行，即使我在具有 192.0 GiB RAM 的机器上运行此 spark 作业，我仍然会遇到相同的错误。 (并且 192.0 GiB 应该足以将整个数据集保存在内存中。)
我怎样才能给 spark 足够的内存来运行需要大量内存的分组聚合 Pandas UDF？
例如，是否有一些我错过的 Spark 配置可以为 apache 箭头提供更多内存？
更长的错误信息

---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
 in 
----> 1 device_attack_result.count()
      2 
      3 
      4 

/usr/lib/spark/python/pyspark/sql/dataframe.py in count(self)
    520         2
    521         """
--> 522         return int(self._jdf.count())
    523 
    524     @ignore_unicode_prefix

/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py in __call__(self, *args)
   1255         answer = self.gateway_client.send_command(command)
   1256         return_value = get_return_value(
-> 1257             answer, self.gateway_client, self.target_id, self.name)
   1258 
   1259         for temp_arg in temp_args:

/usr/lib/spark/python/pyspark/sql/utils.py in deco(*a, **kw)
     61     def deco(*a, **kw):
     62         try:
---> 63             return f(*a, **kw)
     64         except py4j.protocol.Py4JJavaError as e:
     65             s = e.java_exception.toString()

/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py in get_return_value(answer, gateway_client, target_id, name)
    326                 raise Py4JJavaError(
    327                     "An error occurred while calling {0}{1}{2}.\n".
--> 328                     format(target_id, ".", name), value)
    329             else:
    330                 raise Py4JError(

Py4JJavaError: An error occurred while calling o818.count.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 102 in stage 27.0 failed 4 times, most recent failure: Lost task 102.3 in stage 27.0 (TID 3235, ip-172-31-111-163.ec2.internal, executor 1): org.apache.arrow.vector.util.OversizedAllocationException: Unable to expand the buffer
...

Full error message here.

最佳答案

Spark 的 PandasUDF 功能使用 Arrow 框架将 spark DataFrame 转换为 pandas DataFrame，此时 Arrow 内部缓冲区限制仅为 2GB，因此您的 pandasUDF group by condition 不应产生超过 2 GB 的未压缩数据。

df.groupby('id').apply(function)

我的意思是

you can run your pandas UDF method only if your group by partition size is less than 2 GB uncompressed

这是供您引用的门票

https://issues.apache.org/jira/browse/ARROW-4890

上述问题似乎在 >= 0.15 版本的 pyarrow 中得到解决，只有 Spark 3.x 使用 pyarrow 0.15 版本

关于apache-spark - 如何通过增加 spark 的内存来解决 pyspark `org.apache.arrow.vector.util.OversizedAllocationException` 错误？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58269565/

29

4

0

文章推荐：自定义控件中图层的 SwiftUI 背景颜色

文章推荐： flutter - 如何在 Flutter 中的 HTTP post 请求中传递 header ？

c# - Google.Apis.Util.Utilities.GetStringValue(System.Enum) 和 Google.Apis.Util.Utilities.GetStringValue(System.Enum) 之间的调用不明确
我在这个网站上发布的代码有这个问题 https://developers.google.com/drive/quickstart-cs是 Google Drive 快速入门的开发人员站点。我按照网站上
java - Kafka Utils 类路径错误 : org. apache.kafka.common.utils.Utils
我正在尝试制作一个非常简单的 Kafka Producer，目前正在关注 producer example除了我的制作人没有分区程序类。将所需文件导出到 jar 后，我将它们传输到我的 Linux
java - 当使用外部模拟 util 库(也使用 java util lib)测试 java util 库时的循环引用
问题在java中，我有一个“Util项目”，在进行单元测试时使用另一个“Mock项目”。我的问题是“模拟项目”也使用“Util项目”来构建一些模拟对象。当我使用 Maven 构建项目时，我无法构
scala - 真的需要 scala.util.automata、scala.util.regexp 和 scala.util.grammar 吗？
据我所知，这些包已经存在很长时间了。但是，我从未见过它们的实际用法。而且这些包似乎不成熟，不再维护。如果是，为什么这些包现在存在？最佳答案包裹automata被 scala.xml.dtd 使用,
android - 无法下载 backport-util-concurrent.jar(backport-util-concurrent :backport-util-concurrent:3. 1):没有可用于离线模式的缓存版本
关闭。这个问题需要debugging details .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 1年前关闭。 Improve this question Co
java - 为什么在 java.util.Collections 中声明静态 java.util.Collections.fill() 方法而不是在 java.util.AbstractList 中声明实例方法？
在java.util.Collections中，有一个方法: public static void fill(List list, T obj) 用第二个参数指定的对象填充第一个参数指定的List。
scala - 类型不匹配;找到 : edu. stanford.nlp.util.CoreMap => 需要单位 : java. util.function.Consumer[_> : edu. stanford.nlp.util.CoreMap]
我不明白它要我做什么。分配给 sentence正在工作: val sentences : java.util.List[CoreMap] = document.get(classOf[Sentence
javascript - util 函数直接导出 vs util 类
在我的 React 应用程序中，我想使用一些实用程序。我见过两种不同的方法。第一个是，只是创建函数并将其导出。第二个是，创建一个 Util 类并导出一个对象，这样它就不能被实例化(静态类)。 clas
java - 如何对依赖于其他 Util 类方法的 Util 类进行单元测试？
我有一个 util 类，它接受 String jwtToken 和 Key key 并使用 io.jsonwebtoken.jwts 解码 jwt。但是，我无法对此进行测试。原因是，我无法模拟公钥并
java - 目标命名空间java util cxf和代码生成包java.util.xsd
我有使用目标命名空间的专有架构 xmlns:ax216="http://util.java/xsd" 这给我带来了从 java (java.util.xsd) 开始生成禁止的(由 Java 安全管理器
java - java.util.Collections和java.util.Collection在Java中有什么关系吗？
我正在阅读集合以查看 Javadocs 中的实现层次结构。 Collections声明为public class Collections extendds Object Collection声明为pu
java - 无法将 'config.map' 下的属性绑定(bind)到 java.util.Map>> :
我正在使用 Spring-boot 应用程序，我可以在其中连接 Azure 应用程序配置。但是当我尝试使用内容类型应用程序/JSON 读取值时出现错误。我的Java类 @ConfigurationP
java - 无法将 'config.map' 下的属性绑定(bind)到 java.util.Map>> :
我正在使用 Spring-boot 应用程序，我可以在其中连接 Azure 应用程序配置。但是当我尝试使用内容类型应用程序/JSON 读取值时出现错误。我的Java类 @ConfigurationP
java.util.IllegalFormatConversionException 与 java.util.Formatter
我在使用格式说明符时遇到问题。这是否意味着我正在使用 %d？ public static void main(String[] args) { double y, x; for (x =
java.util.Iterator 但无法导入 java.util.Iterator
鉴于此代码 import java.util.Iterator; private static List someList = new ArrayList(); public static void
java.util.Scanner 处的 java.util.NoSuchElementException
我正在 HackerEarth 解决问题，我无法弄清楚为什么我的程序在命令行上正确运行并给出正确的结果，但在代码编辑器上运行时却给出 java.util.NoSuchElementException
java.util.ArrayList 无法转换为 java.util.Vector
我正在尝试使用以下代码使用对象列表列表中的数据填充tableModel readExcel.readSheet(0): TableModel tableModel = new DefaultTabl
java.util.Set、java.util.List 可序列化问题
java.util.Set 、 java.util.List 和其他 Collection 接口(interface)不可序列化。需要一个简单、直接的解决方案来在可序列化的 POJO 中使用它。 pu
java.util.Vector 无法转换为 java.util.ArrayList
我试图从 servlet 返回数据库搜索结果的 ArrayList 以显示在 jsp 页面上。在servlet中设置arraylist作为请求的属性，并将请求转发到jsp页面。当我尝试在 jsp 页
java.util.HashMap 无法转换为 java.util.ArrayList
我是android新手，最近我试图从firebase中提取数据到recyclerview/cardview中以垂直布局显示数据，它显示将Hashmap转换为Arraylist的错误，其中代码是:

首页

博学

6Ren·AI

商城

apache-spark - 如何通过增加 spark 的内存来解决 pyspark `org.apache.arrow.vector.util.OversizedAllocationException` 错误？