gpt4 book ai didi

json - 如何定义嵌套数组以摄取数据并进行转换?

转载 作者:行者123 更新时间:2023-12-04 15:38:25 25 4
gpt4 key购买 nike

我正在使用 Firehose 和 Glue 来摄取数据并将 JSON 转换为 S3 中的 Parquet 文件。

我成功地使用普通的 JSON(非嵌套或数组)实现了它。但是我对嵌套的 JSON 数组失败了。我做了什么:

JSON 结构

{
"class_id": "test0001",
"students": [{
"student_id": "xxxx",
"student_name": "AAAABBBCCC",
"student_gpa": 123
}]
}

胶水模式
  • class_id : 字符串
  • 学生:数组ARRAY<STRUCT<student_id:STRING,student_name:STRING,student_gpa:INT>>

  • 我收到错误:
    The schema is invalid. Error parsing the schema: Error: type expected at the position 0 of 'ARRAY<STRUCT<student_id:STRING,student_name:STRING,student_gpa:INT>>' but 'ARRAY' is found.

    任何建议表示赞赏。

    最佳答案

    我遇到了这个问题,因为我在 AWS 控制台中手动创建了架构。问题是,它在表单旁边显示一些帮助文本以输入您的嵌套数据,该数据将所有内容大写,但 Parquet 只能与 一起使用。小写定义。

    尽管 AWS 给出的例子写:

    array<struct<student_id:string,student_name:string,student_gpa:int>>

    关于json - 如何定义嵌套数组以摄取数据并进行转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58768738/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com