gpt4 book ai didi

google-cloud-dataflow - 通过 Apache Beam 使用 ParquetIO 读写 parquet 文件的示例

转载 作者:行者123 更新时间:2023-12-01 13:19:26 25 4
gpt4 key购买 nike

有没有人尝试过使用 Apache Beam 读/写 Parquet 文件。最近在 2.5.0 版中添加了支持,因此文档不多。

我正在尝试读取 json 输入文件并希望写入 parquet 格式。

提前致谢。

最佳答案

在不同的模块中添加以下依赖项作为 ParquetIO

<dependency>
<groupId>org.apache.beam</groupId>;
<artifactId&gt;beam-sdks-java-io-parquet</artifactId>;
<version>2.6.0</version>;
</dependency>;

//这里是读写代码....

PCollection<JsonObject> input = #Your data
PCollection<GenericRecord> pgr =input.apply("parse json", ParDo.of(new DoFn<JsonObject, GenericRecord> {
@ProcessElement
public void processElement(ProcessContext context) {
JsonObject json= context.getElement();
GenericRecord record = #convert json to GenericRecord with schema
context.output(record);
}
}));
pgr.apply(FileIO.<GenericRecord>write().via(ParquetIO.sink(schema)).to("path/to/save"));

PCollection<GenericRecord> data = pipeline.apply(
ParquetIO.read(schema).from("path/to/read"));

关于google-cloud-dataflow - 通过 Apache Beam 使用 ParquetIO 读写 parquet 文件的示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51168918/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com