gpt4 book ai didi

amazon-web-services - 我应该每次都运行 Glue 爬虫来获取最新数据吗?

转载 作者:行者123 更新时间:2023-12-05 02:06:43 25 4
gpt4 key购买 nike

我有一个名为 Employee 的 S3 存储桶。每三个小时我就会在存储桶中获取一个文件,上面附有时间戳。我将使用 Glue 作业通过一些转换将文件从 S3 移动到 Redshift。我在 S3 存储桶中的输入文件将具有固定结构。 My Glue Job 将使用通过爬虫在 Data Catalog 中创建的表作为输入。

第一次运行:

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "test", table_name = "employee_623215", transformation_ctx = "datasource0")

三个小时后,如果我再为员工获取一份文件,我是否应该再次抓取它?

有没有办法在 Data Catalog 中拥有单个表,如 employee 并使用最新的 S3 文件更新表,Glue Job 可以使用该文件进行处理。还是每次都运行爬虫获取最新的数据?问题是将在我的数据目录中创建更多的表。

如果可行,请告诉我。

最佳答案

如果架构发生变化,您只需再次运行 AWS Glue 爬虫。只要架构保持不变,您就可以将文件添加到 Amazon S3,而无需重新运行爬虫。

更新:@Eman 下面的评论是正确的

If you are reading from catalog this suggestion will not work. Partitions will not be updated to the catalog table if you do not recrawl. Running the crawler maps those new partitions to the table and allow you to process the next day's partitions.

关于amazon-web-services - 我应该每次都运行 Glue 爬虫来获取最新数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62541496/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com