作者热门文章
- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用级联将 Text Delimited 转换为 parquet & avro 文件。我无法像 Avro 那样为 Parquet 元数据中的列提供描述。当任何人使用数据集来获取有关数据集本身字段的一些描述时,这将很有帮助。
下面是 Parquet 架构:
message LaunchApplication {
required int field1;
required binary field2;
optional binary field3;
required binary field4;
}
下面是 avro 模式:
{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
{"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
{"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
{"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
{"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."} ]
}
我如何在 parquet 中跟踪 avro 文件中的“doc”部分?
最佳答案
实际上 Parquet 也支持 Avro 模式。如果您使用 Avro 架构,Parquet 将从中推断出 Parquet 架构并且还将 Avro 架构存储在元数据中。
关于hadoop - 如何在 Parquet 模式定义中指定列描述,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34212332/
我是一名优秀的程序员,十分优秀!