gpt4 book ai didi

julia - 在 Julia 中将自定义元数据写入 Parquet 文件

转载 作者:行者123 更新时间:2023-12-05 05:45:36 25 4
gpt4 key购买 nike

我目前正在使用 Parquet.jl 将 Julia 模拟的输出(Julia 数据帧)存储在 Parquet 文件中。我还想将一些模拟参数(例如(字节)字符串列表)保存到同一个输出文件中。

最好,这些参数对于每一列都是不同的,因为每一列都是我的代码的不同起始条件的结果。但是,我也可以使用全局参数列表,然后通过索引将其解开。

我找到了一个使用 pyarrow 的 Python 解决方案

https://mungingdata.com/pyarrow/arbitrary-metadata-parquet-table/ .

你知道如何在 Julia 中做到这一点吗?

最佳答案

还没有完全完成,也没有注册,但是我重写了 Julia parquet 包,Parquet2.jl支持自定义文件元数据和单个列元数据(Parquet2.writefile 中的关键字参数 metadatacolumn_metadata

我还没有开始编写文档,但如果您喜欢冒险,可以试一试。我确实希望在接下来的几周内完成这个包并进行注册。我还没有用于编写的单元测试,所以当然,如果您尝试并遇到问题,请打开一个问题。

可能还值得一提的是,我推荐 parquet 的主要用例是出于兼容性原因必须使用 parquet。大多数时候,Julia 用户使用 Arrow.jl 可能会更好。由于该格式在大多数用例中比 parquet 有许多优势,请参阅 my FAQ answer on this .当然,我着手编写这个包的原因是因为 parquet 可以说是“大数据世界”中唯一普遍存在的二进制格式,因此迫切需要一个强大的编写器。

关于julia - 在 Julia 中将自定义元数据写入 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71310140/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com