gpt4 book ai didi

hadoop - 如何在Java/Scala中将 Parquet 架构转换为Avro

转载 作者:行者123 更新时间:2023-12-02 19:55:29 24 4
gpt4 key购买 nike

假设我在文件系统上有 Parquet 文件。如何获得 Parquet 方案并将其转换为Avro方案?

最佳答案

使用hadoop ParquetFileReader获取Parquet模式并将其传递给AvroSchemaConverter以将其转换为Avro模式。
Scala代码示例:

import org.apache.avro.Schema

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.Path

import org.apache.parquet.avro.AvroSchemaConverter
import org.apache.parquet.hadoop.ParquetFileReader
import org.apache.parquet.hadoop.util.HadoopInputFile

object ParquetToAvroSchemaConverter {
def main(args: Array[String]): Unit = {
val path = new Path("###PATH_TO_PARQUET_FILE###")
val avroSchema = convert(path)
}

def convert(parquetPath: Path): Schema = {
val cfg = new Configuration
// Create parquet reader
val rdr = ParquetFileReader.open(HadoopInputFile.fromPath(parquetPath, cfg))
try {
// Get parquet schema
val schema = rdr.getFooter.getFileMetaData.getSchema
println("Parquet schema: ")
println("#############################################################")
print(schema.toString)
println("#############################################################")
println

// Convert to Avro
val avroSchema = new AvroSchemaConverter(cfg).convert(schema)
println("Avro schema: ")
println("#############################################################")
println(avroSchema.toString(true))
println("#############################################################")

avroSchema
}
finally {
rdr.close()
}
}
}


您必须在 SBT项目中具有下一个依赖项:
libraryDependencies ++= Seq(
"org.apache.parquet" % "parquet-avro" % "1.10.0",
"org.apache.parquet" % "parquet-hadoop" % "1.10.0",
"org.apache.hadoop" % "hadoop-client" % "2.7.3",
)

关于hadoop - 如何在Java/Scala中将 Parquet 架构转换为Avro,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54159454/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com