- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
您好,我有 3 个不同的文件(2 个 CSV 和 1 个 JSON),其中包含来自不同学校的学生成绩单。
第一所学校来自具有以下结构的 CSV:
第二所学校有一个结构如下的 CSV 文件:
最后第3个学校是一个Json文件,结构如下:
[
{
"firstname": "Peter",
"lastname": "McCkaulay",
"subject": "Mathematics",
"grade": 49
},
{
"first_name": "Mary",
"last_name": "Jane",
"subject": "Physics",
"grade": ""
},
{
"first_name": "Joseph",
"last_name": "Brighton",
"subject": "Soc. Studies",
"grade": 89
}
]
任何人都可以给我一些关于如何在 AWS 上构建高效的 ETL 过程的建议,这将使我能够处理来自 3 个不同学校的所有数据并将其加载到 AWS RDS(PostgreSQL、MySQL 等)中,所以我可以对数据进行一些分析吗?
我知道我可以通过将 3 个文件加载到 S3 中来实现这一点,然后创建一个 lambda 将数据加载到 DynamoDB 中,然后将其加载到 RDS 中。这是最好的选择吗?
感谢任何帮助。
最佳答案
您可以使用 AWS Step 函数创建一个工作流,该工作流能够对您描述的数据执行 ETL 操作。 (如果给定的数据集太大而导致 Lambda 函数超时,那么可以考虑使用 Glue。但是,鉴于您的用例和您描述的数据,我怀疑情况是否如此,Lambda 是否会起作用)。
您可以使用 Lambda 函数执行数据操作,并使用 AWS SDK 调用 AWS 服务操作以满足您的业务需求。
作为如何使用 Lambda 和 AWS Step 函数执行此用例的示例,请参阅此 AWS 教程,它显示了一个类似的用例,该用例读取位于 Amazon S3 存储桶中的 excel 文档,提取数据并将数据放入 Amazon DynamoDB 表中。
本 AWS 教程是使用 AWS SDK for Java 实现的;但是,您可以使用任何受支持的编程语言编写 Lambda 函数。这肯定会为您指明正确的方向。
Creating an ETL workflow by using AWS Step Functions and the AWS SDK for Java
关于json - AWS - ETL - JSON/CSV 文件到 RDS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68269998/
最近开始学习MongoDB。今天老师教了我们 mongoexport 命令。在练习时,我遇到了一个典型的问题,包括教练在内的其他同学都没有遇到过。我在我的 Windows 10 机器上使用 Mongo
我是 JSON Schema 的新手,读过什么是 JSON Schema 等等。但我不知道如何将 JSON Schema 链接到 JSON 以针对该 JSON Schema 进行验证。谁能解释一下?
在 xml 中,我可以在另一个 xml 文件中包含一个文件并使用它。如果您的软件从 xml 获取配置文件但没有任何方法来分离配置,如 apache/ngnix(nginx.conf - site-av
我有一个 JSON 对象,其中包含一个本身是 JSON 对象的字符串。我如何反序列化它? 我希望能够做类似的事情: #[derive(Deserialize)] struct B { c: S
考虑以下 JSON { "a": "{\"b\": 12, \"c\": \"test\"}" } 我想定义一个泛型读取 Reads[Outer[T]]对于这种序列化的 Json import
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 11 个月前关闭。 Improve
我的旧项目在 MySQL 中有 Standard JSON 格式的数据。 对于我在 JS (Node.js) 和 DynamoDB 中的全新项目,关于 Standard JSON格式: 是否建议将其转
JSON 值字符串、数字、true、false、null 是否是有效的 JSON? 即,是 true 一个有效的 JSON 文档?还是必须是数组/对象? 一些验证器接受这个(例如 http://jso
我有一个 JSON 字符串,其中一个字段是文本字段。这个文本字段可以包含用户在 UI 中输入的文本,如果他们输入的文本是 JSON 文本,也许是为了说明一些编码,我需要对他们的文本进行编码,以便它不会
我正在通过 IBM MQ 调用处理数据,当由 ColdFusion 10 (10,0,11,285437) 序列化时,0 将作为 +0.0 返回,它会导致无效的 JSON并且无法反序列化。 stPol
我正在从三个数组中生成一个散列,然后尝试构建一个 json。我通过 json object has array 成功了。 require 'json' A = [['A1', 'A2', 'A3'],
我从 API 接收 JSON,响应可以是 30 种类型之一。每种类型都有一组唯一的字段,但所有响应都有一个字段 type 说明它是哪种类型。 我的方法是使用serde .我为每种响应类型创建一个结构并
我正在下载一个 JSON 文件,我已将其检查为带有“https://jsonlint.com”的有效 JSON 到文档目录。然后我打开文件并再次检查,结果显示为无效的 JSON。这怎么可能????这是
我正在尝试根据从 API 接收到的数据动态创建一个 JSON 对象。 收到的示例数据:将数据解码到下面给出的 CiItems 结构中 { "class_name": "test", "
我想从字符串转换为对象。 来自 {"key1": "{\n \"key2\": \"value2\",\n \"key3\": {\n \"key4\": \"value4\"\n }\n
目前我正在使用以下代码将嵌套的 json 转换为扁平化的 json: import ( "fmt" "github.com/nytlabs/gojsonexplode" ) func
我有一个使用来自第三方 API 的数据的应用程序。我需要将 json 解码为一个结构,这需要该结构具有“传入”json 字段的 json 标签。传出的 json 字段具有不同的命名约定,因此我需要不同
我想使用 JSON 架构来验证某些值。我有两个对象,称它们为 trackedItems 和 trackedItemGroups。 trackedItemGroups 是组名称和 trackedItem
考虑以下案例类模式, case class Y (a: String, b: String) case class X (dummy: String, b: Y) 字段b是可选的,我的一些数据集没有字
我正在存储 cat ~/path/to/file/blah | 的输出jq tojson 在一个变量中,稍后在带有 JSON 内容的 curl POST 中使用。它运作良好,但它删除了所有换行符。我知
我是一名优秀的程序员,十分优秀!