gpt4 book ai didi

apache-spark - 在保持分区的同时缓存数据帧

转载 作者:行者123 更新时间:2023-12-04 15:17:54 26 4
gpt4 key购买 nike

我使用的是 Spark 2.2.0,在 EMR 上运行。

我有一个大数据框 df (压缩的 snappy 文件中 40G 左右)由键分区 k1k2 .

当我通过 k1 查询时=== v1或( k1 === v1 && k2 === v2`),我可以看到它只查询分区中的文件(大约 2% 的文件)。

但是如果我 缓存 坚持 df ,突然这些查询就打到了 全部 分区和要么炸毁内存要么性能低得多。

这是一个很大的惊喜 - 有没有办法进行缓存以保留分区信息

最佳答案

这是可以预料的。用于缓存的 Spark 内部列格式与输入格式无关。加载数据后,与原始输入的连接就消失了。

这里的异常(exception)是新的数据源 API [SPARK-22389][SQL] data source v2 partitioning reporting interface ,它允许持久化分区信息,但它是 2.3 中的新功能并且仍在试验中。

关于apache-spark - 在保持分区的同时缓存数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49798098/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com