gpt4 book ai didi

apache-spark - 使用Spark编写Parquet文件,如何为单列启用字典

转载 作者:行者123 更新时间:2023-12-04 13:57:56 27 4
gpt4 key购买 nike

在使用 Apache Spark 编写 Parquet 文件时,有一个配置可以用来在 Parquet 中启用字典:

sparkSession.sqlContext.setConf(“parquet.enabled.dictionary”, “true”)

这使得数据集中的所有列都可以用字典编码写出。写出 Parquet 文件时,有没有办法控制单个列的字典编码?也就是说,为某些列启用字典编码,但不对其他列启用字典编码,从而对字典编码的使用进行更精细的控制。

这是因为对于某些数字列(如存储金额或数量的字段)字典编码不会带来任何好处,但对于其他列字典编码可能非常有用。

最佳答案

我发现了如何为单列设置字典。设置如下:

spark.conf.set("parquet.enable.dictionary#columnName", "true")
但是字典默认是对所有列启用的,所以可以先设置所有列关闭字典。
spark.conf.set("parquet.enable.dictionary", "false")

关于apache-spark - 使用Spark编写Parquet文件,如何为单列启用字典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57759393/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com