gpt4 book ai didi

avro - 如何在 Avro 中将记录与 map 混合?

转载 作者:行者123 更新时间:2023-12-03 13:30:21 28 4
gpt4 key购买 nike

我正在处理 JSON 格式的服务器日志,我想以 Parquet 格式将我的日志存储在 AWS S3 上(并且 Parquet 需要 Avro 模式)。首先,所有日志都有一组共同的字段,其次,所有日志都有很多可选字段,这些字段不属于共同组。

例如,以下是三个日志:

{ "ip": "172.18.80.109", "timestamp": "2015-09-17T23:00:18.313Z", "message":"blahblahblah"}
{ "ip": "172.18.80.112", "timestamp": "2015-09-17T23:00:08.297Z", "message":"blahblahblah", "microseconds": 223}
{ "ip": "172.18.80.113", "timestamp": "2015-09-17T23:00:08.299Z", "message":"blahblahblah", "thread":"http-apr-8080-exec-1147"}

所有三个日志都有 3 个共享字段: ip , timestampmessage ,部分日志有附加字段,如 microsecondsthread .

如果我使用以下模式,那么我将丢失所有其他字段。:
{"namespace": "example.avro",
"type": "record",
"name": "Log",
"fields": [
{"name": "ip", "type": "string"},
{"name": "timestamp", "type": "String"},
{"name": "message", "type": "string"}
]
}

以下架构可以正常工作:
{"namespace": "example.avro",
"type": "record",
"name": "Log",
"fields": [
{"name": "ip", "type": "string"},
{"name": "timestamp", "type": "String"},
{"name": "message", "type": "string"},
{"name": "microseconds", "type": [null,long]},
{"name": "thread", "type": [null,string]}
]
}

但唯一的问题是,除非我扫描所有日志,否则我不知道所有可选字段的名称,此外,将来还会有新的附加字段。

然后我想出了一个结合 record的想法和 map :
{"namespace": "example.avro",
"type": "record",
"name": "Log",
"fields": [
{"name": "ip", "type": "string"},
{"name": "timestamp", "type": "String"},
{"name": "message", "type": "string"},
{"type": "map", "values": "string"} // error
]
}

不幸的是,这不会编译:
java -jar avro-tools-1.7.7.jar compile schema example.avro .

它会抛出一个错误:
Exception in thread "main" org.apache.avro.SchemaParseException: No field name: {"type":"map","values":"long"}
at org.apache.avro.Schema.getRequiredText(Schema.java:1305)
at org.apache.avro.Schema.parse(Schema.java:1192)
at org.apache.avro.Schema$Parser.parse(Schema.java:965)
at org.apache.avro.Schema$Parser.parse(Schema.java:932)
at org.apache.avro.tool.SpecificCompilerTool.run(SpecificCompilerTool.java:73)
at org.apache.avro.tool.Main.run(Main.java:84)
at org.apache.avro.tool.Main.main(Main.java:73)

有没有办法以 Avro 格式存储 JSON 字符串,可以灵活地处理未知的可选字段?

基本上这是一个 架构演变 问题,Spark 可以通过 Schema Merging 处理这个问题.我正在寻找 Hadoop 的解决方案。

最佳答案

map 类型是 avro 术语中的“复杂”类型。以下代码段有效:

{
"namespace": "example.avro",
"type": "record",
"name": "Log",
"fields": [
{"name": "ip", "type": "string"},
{"name": "timestamp", "type": "string"},
{"name": "message", "type": "string"},
{"name": "additional", "type": {"type": "map", "values": "string"}}
]
}

关于avro - 如何在 Avro 中将记录与 map 混合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32642154/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com