gpt4 book ai didi

r - 生成 parquet 文件 - R 和 Python 之间的差异

转载 作者:行者123 更新时间:2023-12-02 04:54:51 26 4
gpt4 key购买 nike

我们生成了 parquet文件在 Dask (Python) 和 Drill (R 使用 Sergeant 数据包)。我们注意到一些问题:

  1. Dask 的格式(即 fastparquet )有一个 _metadata和一个 _common_metadata文件,而parquet文件在 R \ Drill没有这些文件并且有 parquet.crc文件代替(可以删除)。这些parquet有什么区别?实现?

最佳答案

(仅回答1),请单独发布问题以便于回答)

_metadata_common_metadata 是 Parquet 数据集不需要的帮助程序文件,Spark/Dask/Hive/... 使用这些文件来推断元数据数据集的所有 Parquet 文件,无需读取所有文件的页脚。与此相反,Apache Drill 在每个文件夹中(按需)生成一个类似的文件,其中包含所有 Parquet 文件的所有页脚。仅在数据集的第一次查询时读取所有文件,进一步的查询将仅读取缓存所有页脚的文件。

使用_metadata_common_metadata的工具应该能够利用它们来获得更快的执行时间,但不依赖它们进行操作。如果它们不存在,则查询引擎只需读取所有页脚即可。

关于r - 生成 parquet 文件 - R 和 Python 之间的差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45415829/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com