gpt4 book ai didi

json - AWS - ETL - JSON/CSV 文件到 RDS

转载 作者:行者123 更新时间:2023-12-04 07:24:56 25 4
gpt4 key购买 nike

您好,我有 3 个不同的文件(2 个 CSV 和 1 个 JSON),其中包含来自不同学校的学生成绩单。

第一所学校来自具有以下结构的 CSV:

<表类="s-表"><头>名字姓氏主题标记<正文>标记约翰逊数学A+约翰费舍尔艺术B-

第二所学校有一个结构如下的 CSV 文件:

<表类="s-表"><头>名称主题标记<正文>彼得音乐A+玛丽艺术B-

最后第3个学校是一个Json文件,结构如下:

[
{
"firstname": "Peter",
"lastname": "McCkaulay",
"subject": "Mathematics",
"grade": 49
},
{
"first_name": "Mary",
"last_name": "Jane",
"subject": "Physics",
"grade": ""
},
{
"first_name": "Joseph",
"last_name": "Brighton",
"subject": "Soc. Studies",
"grade": 89
}
]

任何人都可以给我一些关于如何在 AWS 上构建高效的 ETL 过程的建议,这将使我能够处理来自 3 个不同学校的所有数据并将其加载到 AWS RDS(PostgreSQL、MySQL 等)中,所以我可以对数据进行一些分析吗?

我知道我可以通过将 3 个文件加载到 S3 中来实现这一点,然后创建一个 lambda 将数据加载到 DynamoDB 中,然后将其加载到 RDS 中。这是最好的选择吗?

感谢任何帮助。

最佳答案

您可以使用 AWS Step 函数创建一个工作流,该工作流能够对您描述的数据执行 ETL 操作。 (如果给定的数据集太大而导致 Lambda 函数超时,那么可以考虑使用 Glue。但是,鉴于您的用例和您描述的数据,我怀疑情况是否如此,Lambda 是否会起作用)。

您可以使用 Lambda 函数执行数据操作,并使用 AWS SDK 调用 AWS 服务操作以满足您的业务需求。

作为如何使用 Lambda 和 AWS Step 函数执行此用例的示例,请参阅此 AWS 教程,它显示了一个类似的用例,该用例读取位于 Amazon S3 存储桶中的 excel 文档,提取数据并将数据放入 Amazon DynamoDB 表中。

enter image description here

本 AWS 教程是使用 AWS SDK for Java 实现的;但是,您可以使用任何受支持的编程语言编写 Lambda 函数。这肯定会为您指明正确的方向。

Creating an ETL workflow by using AWS Step Functions and the AWS SDK for Java

关于json - AWS - ETL - JSON/CSV 文件到 RDS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68269998/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com