gpt4 book ai didi

python - 快速 Parquet : how to disable rle encoding

转载 作者:太空宇宙 更新时间:2023-11-03 15:15:52 24 4
gpt4 key购买 nike

我正在使用 fastparquet 将 pandas 数据帧转换为 parquet 文件。它比我之前使用 pyspark 的方法快得多。

我想使用 Spark 读取这些 Parquet 文件,即

 sqlCtx.read.parquet('/tmp/parquet/test.parquet')

我遇到了一些问题,但我设法解决了。我现在遇到的问题是 RLE 编码。当我尝试使用 pyspark 读取 Parquet 文件时,出现以下 java 异常:

Unsupported encoding: RLE

使用 fastparquet write 方法时是否可以禁用 RLE?

最佳答案

这是 fastparquet 中针对短整数('int8'、'int16'、'uint8'、'uint16')的优化。不幸的是,spark 不支持完整的 parquet 规范。

如果您希望 Spark 能够读取您的数据,您应该首先转换 32 或 64 位的整数列。

已经考虑实现“兼容模式”,以牺牲性能为代价来解决这些问题,但目前还没有具体计划。

关于python - 快速 Parquet : how to disable rle encoding,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43898618/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com