gpt4 book ai didi

julia - 如何将分区的 Apache Arrow 或 Parquet 文件读入/写出 Julia

转载 作者:行者123 更新时间:2023-12-04 12:02:03 34 4
gpt4 key购买 nike

我正在尝试在 Julia 中读取和写入一个简单的数据集。数据集是 mtcars ,取自 R,任意添加一列 bt带有随机 bool 值。文件/文件夹结构(如下)是使用 R arrow 写出的。包裹。
文件排列如下:

arr
|-- bt=false
| `-- part-1.arrow
`-- bt=true
`-- part-0.arrow
如何在 Julia 中忠实地重现原始表?
到目前为止我尝试过的:
  • 使用 Parquet.jl包裹。文档建议它应该自动检测 bool/string/date 类型列的分区文件夹结构。当我读入数据时,使用 read_parquet(path; kwargs) ,结果数据结构没有 bt柱子。我试过设置 column_generator默认的关键字参数 Parquet.dataset_column_generator但这不起作用。
  • 使用 Arrow.jl - 我找不到直接读取分区数据结构的记录方式(除非我误解了)。

  • R 不会生成额外的元数据文件来存储架构,但我知道这是可选的,而不是箭头规范的一部分?

    最佳答案

    尝试这个。他们列出了一个方法作为这个
    拼花文件或数据集中的分区也可以使用 Tables.partitions 返回的迭代器进行迭代。方法。

    using Parquet, DataFrames
    for partition in Tables.partitions(read_parquet(path))
    df = DataFrame(partition)
    ...
    end
    进一步引用: https://github.com/JuliaIO/Parquet.jl

    关于julia - 如何将分区的 Apache Arrow 或 Parquet 文件读入/写出 Julia,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67574395/

    34 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com