gpt4 book ai didi

python - 使用 Python 编写 Parquet 文件的方法?

转载 作者:IT老高 更新时间:2023-10-28 20:34:25 24 4
gpt4 key购买 nike

我无法找到允许使用 Python 编写 Parquet 文件的库。如果我可以结合使用 Snappy 或类似的压缩机制,则可以加分。

到目前为止,我发现的唯一方法是使用带有 pyspark.sql.DataFrame Parquet 支持的 Spark。

我有一些脚本需要编写非 Spark 作业的 Parquet 文件。有没有什么方法可以在 Python 中编写不涉及 pyspark.sql 的 Parquet 文件?

最佳答案

更新(2017 年 3 月):目前有 2 个库能够编写 Parquet 文件:

  1. fastparquet
  2. pyarrow

它们似乎仍在大力开发中,并且带有许多免责声明(例如不支持嵌套数据),因此您必须检查它们是否支持您需要的一切。

旧答案:

截至 2.2016 年,似乎没有能够编写 Parquet 文件的纯 python 库。

如果您只需要读取 Parquet 文件,则有 python-parquet .

作为一种解决方法,您将不得不依赖其他一些过程,例如pyspark.sql(它使用 Py4J 并在 JVM 上运行,因此不能直接从普通 CPython 程序中使用)。

关于python - 使用 Python 编写 Parquet 文件的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32940416/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com