gpt4 book ai didi

java - 使用 Apache Beam Java SDK 读取 Parquet 文件,无需提供架构

转载 作者:行者123 更新时间:2023-12-01 19:57:11 24 4
gpt4 key购买 nike

似乎org.apache.beam.sdk.io.parquet.ParquetIO.readFiles方法需要传入一个模式。

  • 有没有办法避免传递架构?
  • 架构是否包含在 Parquet 文件中?
  • 如果我尝试读取具有不同架构的多个 Parquet 文件怎么办?

最佳答案

请找到我的内联回复

  • 有没有办法避免传递模式?目前没有机制可以避免传递 parquet 文件的架构

  • 架构是否包含在 Parquet 文件中?是的,这是正确的, header 中的元数据作为文件的架构定义。请引用BEAM-8344这是支持推断架构的开放功能请求

  • 如果我尝试读取具有不同架构的多个 Parquet 文件怎么办?您可以执行以下操作,其中您可以传递文件模式和路径并指定不同的架构。

  PCollection<FileIO.ReadableFile> files = pipeline
.apply(FileIO.match().filepattern(options.getInputFilepattern())
.apply(FileIO.readMatches());

PCollection<GenericRecord> output = files.apply(ParquetIO.readFiles(SCHEMA));

关于java - 使用 Apache Beam Java SDK 读取 Parquet 文件,无需提供架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59031500/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com