gpt4 book ai didi

amazon-web-services - AWS Glue 爬虫覆盖数据与追加

转载 作者:行者123 更新时间:2023-12-04 16:03:49 25 4
gpt4 key购买 nike

我正在尝试利用 Athena 对由第三方供应商预 ETL 并推送到内部 S3 存储桶的数据运行 SQL。

CSV 文件每天由 ETL 供应商推送到存储桶。除了可追溯到 2016 年的数据外,每个文件还包括昨天的数据(即每天都有新数据到达,但历史数据也可能发生变化)。

我设置了一个 AWS Glue 爬虫来监控上传 CSV 文件的特定 S3 文件夹。

因为每个文件都包含更新的历史数据,所以我希望找到一种方法让爬虫根据最新上传的文件覆盖现有表,而不是追加。 这可能吗?

非常感谢!

最佳答案

你问的方式是不可能的。爬虫不会更改数据。

爬虫仅使用表格填充 AWS Glue 数据目录。详情请看这里:https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html

如果您想在使用数据之前使用 Athena/Glue 进行数据清理,您需要按照以下步骤操作:

  1. 使用 Crawler 将数据映射到临时 Athena 数据库/表中

  2. 使用 Athena 分析您的数据。 SQL 或 QuickSight 等了解您需要更改的内容

  3. 使用 Glue 作业来

    • 使用 PySpark 或 Scala 进行数据转换/清理/重命名/去重
    • 将数据导出到 S3 新位置(.csv/.paruqet 等)可能进行分区
  4. 再运行一个 Crawler 以将清理后的数据从新的 S3 位置映射到 Athena 数据库中

您询问的重复数据删除发生在第 3 步

关于amazon-web-services - AWS Glue 爬虫覆盖数据与追加,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49633789/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com