gpt4 book ai didi

java - 使用 Java API 将 Parquet 格式写入 HDFS,而不使用 Avro 和 MR

转载 作者:可可西里 更新时间:2023-11-01 14:21:40 55 4
gpt4 key购买 nike

通过直接创建 Pojo 的 Parquet SchemaParquet Format 写入 HDFS(使用 Java API)的简单方法是什么,无需使用 avroMR

我发现的示例已过时并且使用了已弃用的方法也使用了 Avro、spark 或 MR 之一。

最佳答案

实际上,没有很多示例可用于在没有外部框架帮助的情况下读取/写入 Apache parquet 文件。

核心 parquet 库是 parquet-column,您可以在其中找到一些直接读取/写入的测试文件:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java

然后您只需对 HDFS 文件使用相同的功能。您可以为此关注这个 SOW 问题:Accessing files in HDFS using Java

更新:响应 API 的弃用部分:AvroWriteSupport 应替换为 AvroParquetWriter,我检查 ParquetWriter 它没有被弃用并且可以安全使用。

问候,

洛伊克

关于java - 使用 Java API 将 Parquet 格式写入 HDFS,而不使用 Avro 和 MR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39202493/

55 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com