gpt4 book ai didi

scala - 在 Spark 中导入 parquet 文件时出现内存问题

转载 作者:行者123 更新时间:2023-12-02 05:17:53 25 4
gpt4 key购买 nike

我正在尝试从 Scala Spark (1.5) 中的 parquet 文件查询数据,包括 200 万行的查询(以下代码中的“变体”)。

val sqlContext = new org.apache.spark.sql.SQLContext(sc)  
sqlContext.sql("SET spark.sql.parquet.binaryAsString=true")

val parquetFile = sqlContext.read.parquet(<path>)

parquetFile.registerTempTable("tmpTable")
sqlContext.cacheTable("tmpTable")

val patients = sqlContext.sql("SELECT DISTINCT patient FROM tmpTable ...)

val variants = sqlContext.sql("SELECT DISTINCT ... FROM tmpTable ... )

当获取的行数较低时,此方法运行良好,但当请求大量数据时,会失败并出现“大小超出 Integer.MAX_VALUE”错误。错误如下:

User class threw exception: org.apache.spark.SparkException:
Job aborted due to stage failure: Task 43 in stage 1.0 failed 4 times,
most recent failure: Lost task 43.3 in stage 1.0 (TID 123, node009):
java.lang.RuntimeException: java.lang.IllegalArgumentException:
Size exceeds Integer.MAX_VALUE at
sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828) at
org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:125) at
org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:113) at ...

我该怎么做才能让这项工作成功?

这看起来像是一个内存问题,但我尝试使用最多 100 个执行程序,没有任何区别(无论涉及多少执行程序,失败所需的时间也保持不变)。感觉数据没有跨节点分区?

我尝试通过天真地替换此行来强制更高的并行化,但无济于事:

val variants = sqlContext.sql("SELECT DISTINCT ... FROM tmpTable ... ).repartition(sc.defaultParallelism*10)

最佳答案

我不认为这个问题是 Parquet 特有的。您“遇到”了 Spark 分区最大大小的限制。

Size exceeds Integer.MAX_VALUE at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828) at ...

Integer.MAX_VALUE 检测到您的分区大小(我相信)超过 2GB(需要超过 int32 来为其建立索引)。

乔·威登的评论非常正确。您甚至需要对数据进行重新分区。尝试 1000 或更多。

例如,

val data = sqlContext.read.parquet("data.parquet").rdd.repartition(1000).toDF

关于scala - 在 Spark 中导入 parquet 文件时出现内存问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36144441/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com