gpt4 book ai didi

apache-spark - spark.sql.hive.filesourcePartitionFileCacheSize

转载 作者:行者123 更新时间:2023-12-05 03:07:10 27 4
gpt4 key购买 nike

不知道有没有人知道这个警告信息

18/01/10 19:52:56 WARN SharedInMemoryCache: Evicting cached table partition metadata from memory due to size constraints
(spark.sql.hive.filesourcePartitionFileCacheSize = 262144000 bytes). This may impact query planning performance

我在尝试将一些包含许多分区的大数据帧从 S3 加载到 spark 时经常看到这种情况。

它从来没有真正对工作造成任何问题,只是想知道该配置属性的用途是什么以及如何正确调整它。

谢谢

最佳答案

在回答您的问题时,这是一个 spark-hive 特定的配置属性,当非零时,启用内存中的分区文件元数据缓存。所有表共享一个缓存,该缓存最多可以使用指定的 num 个字节来存储文件元数据。此 conf 仅在启用 hive 文件源分区管理时有效。

spark源码中是这样写的。根据代码,默认大小为 250 * 1024 * 1024,您可以尝试在代码/spark-submit 命令中通过 SparkConf 对象进行操作。

Spark 源代码

val HIVE_FILESOURCE_PARTITION_FILE_CACHE_SIZE =
buildConf("spark.sql.hive.filesourcePartitionFileCacheSize")
.doc("When nonzero, enable caching of partition file metadata in memory. All tables share " +
"a cache that can use up to specified num bytes for file metadata. This conf only " +
"has an effect when hive filesource partition management is enabled.")
.longConf
.createWithDefault(250 * 1024 * 1024)

关于apache-spark - spark.sql.hive.filesourcePartitionFileCacheSize,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48195147/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com