amazon-web-services - AWS Glue 爬虫覆盖数据与追加-6ren

amazon-web-services - AWS Glue 爬虫覆盖数据与追加

转载作者：行者123 更新时间：2023-12-04 16:03:49

26

4

我正在尝试利用 Athena 对由第三方供应商预 ETL 并推送到内部 S3 存储桶的数据运行 SQL。

CSV 文件每天由 ETL 供应商推送到存储桶。除了可追溯到 2016 年的数据外，每个文件还包括昨天的数据(即每天都有新数据到达，但历史数据也可能发生变化)。

我设置了一个 AWS Glue 爬虫来监控上传 CSV 文件的特定 S3 文件夹。

因为每个文件都包含更新的历史数据，所以我希望找到一种方法让爬虫根据最新上传的文件覆盖现有表，而不是追加。 这可能吗？

非常感谢!

最佳答案

你问的方式是不可能的。爬虫不会更改数据。

爬虫仅使用表格填充 AWS Glue 数据目录。详情请看这里:https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html

如果您想在使用数据之前使用 Athena/Glue 进行数据清理，您需要按照以下步骤操作:

使用 Crawler 将数据映射到临时 Athena 数据库/表中
使用 Athena 分析您的数据。 SQL 或 QuickSight 等了解您需要更改的内容
使用 Glue 作业来
- 使用 PySpark 或 Scala 进行数据转换/清理/重命名/去重
- 将数据导出到 S3 新位置(.csv/.paruqet 等)可能进行分区
再运行一个 Crawler 以将清理后的数据从新的 S3 位置映射到 Athena 数据库中

您询问的重复数据删除发生在第 3 步

关于amazon-web-services - AWS Glue 爬虫覆盖数据与追加，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49633789/

26

4

0

文章推荐： visual-studio - 使用 Visual Studio 包在 nuget 包中包含构建目录

文章推荐： html - 哪个先出现，主要标签还是部分标签？

文章推荐： reactjs - React-cropper - cropBox 不在图像中

文章推荐： sql - Azure SQL 地理复制同步的速度和影响

C++ 覆盖...覆盖？
我知道 C++ 中的 overriding 是什么。但是，是否存在覆盖？如果有，是什么意思？谢谢。最佳答案在 C++ 术语中，您有覆盖(与类层次结构中的虚拟方法相关)和重载(与具有相同名称但
覆盖/覆盖/堆叠元素上的 Javascript 鼠标事件
我想捕获位于另一个元素下的元素的鼠标事件。这是我所拥有的示例:http://jsfiddle.net/KVLkp/13/ 现在我想要的是当鼠标悬停在红色方 block 上时蓝色方 block 有黄色
python - Pandas boxplot 覆盖/覆盖 matplotlib 图
以下报道 here我尝试创建一个带有重叠散点图的箱线图。但是当我运行时: In [27]: table1.t_in[table1.duration==6] Out[27]: counter 7
javascript - 在 JavaScript 事件中替换/覆盖/覆盖 e.target
有一个 JS Fiddle here , 你能在不克隆到新对象的情况下替换 e.target 吗？下面重复了那个 fiddle 的听众； one.addEventListener('click',
JavaDoc 覆盖
首先要解决重复的可能性: 我不是询问 Override 是什么、它的含义或 @Override 在 java 文档注释之外。那是我不是问 /**Some JavaDoc Comment*/ @over
Java特殊数组补顶/覆盖
我想要高于定义的数组。它存储点及其坐标。 public static List simpleGraph(List nodes) { int numEdges = nodes.size() *
CSS 覆盖
我在 http://olisan.dk/blog/ 有一个博客- 如您所见，有一个 28 像素的高间隙(边距顶部)...在 style.css 中: margin-top: 0; 也被设置为 marg
c++ - 覆盖 VK_USE_64_BIT_PTR_DEFINES
Vulkan 句柄是指向 struct 的不透明指针，或者只是无符号的 64 位整数，具体取决于 VK_USE_64_BIT_PTR_DEFINES 的值: #if (VK_USE_64_BI
wpf - 覆盖 DataGridTextColumn
我正在尝试提供一个行为类似于 DataGridTextColumn 的 DataGrid 列，但在编辑模式下有一个附加按钮。我查看了 DataGridTemplateColumn，但似乎更容易将 Da
Django 覆盖 ASCIIUsernameValidator
使用 Django 1.10 我想在用户名中允许\字符，因为我在使用“django.contrib.auth.middleware.RemoteUserMiddleware”的 Windows 环境中
找不到用于在视频中添加水印的 FFMPEG 覆盖
我正在尝试使用 ffmpeg 将 Logo 放入 rtmp 流中。我的 ffmpeg 版本是 ffmpeg version 4.3.1目前在我的复杂过滤器中，我有: ffmpeg -re -i 'v
Firebase 3存储不允许文件更新/覆盖
是否有用于Firebase 3存储的方法/规则来禁用文件更新或覆盖？我为数据库找到了data.exists()，但没有为存储找到解决方案。最佳答案 TL; DR:在Storage Security
Docker Compose 覆盖
我有两个 Docker Compose 文件，docker-compose.yml看起来像这样 version: '2' services: mongo: image: mongo:3.2
java - 覆盖@CollectionTable
我需要覆盖 JPA 中的集合表吗？也许有人有想法 public class nationality{ @Embedded @AttributeOverrides({
WIX 安装文件，覆盖
嗨，我正在使用 WIX 和下面的代码将文件安装到目录中。我的应用程序的工作方式是用户可以在该目录中复制他们自己的文件，覆盖他们喜欢的内容
Lua 覆盖 # 字符串
我正在尝试为 Lua 中的字符串实现我自己的长度方法。我已成功覆盖字符串的 len() 方法，但我不知道如何为 # 运算符执行此操作。 orig_len = string.len function
scala - 覆盖 'val'时出现意外结果
在Scala 2.10.4中，给出以下类: scala> class Foo { | val x = true | val f = if (x) 100 else 200
Magento 覆盖 Controller
我想做上面的事情。我过去覆盖了许多文件...... block ，模型，助手......但这个让我望而却步。谁能看到我在这里做错了什么: (我编辑了这段代码......现在包括一些建议......
java - 参数顺序 - 覆盖
根据javadoc An instance method in a subclass with the same signature (name, plus the number and the ty
Java FileWriter 覆盖
我有一段代码，只要有可用的新数据作为 InputStream 就会生成新数据。每次都覆盖同一个文件。有时文件在写入之前变为 0 kb。 Web 服务会定期读取这些文件。我需要避免文件为 0 字节的情况

首页

博学

6Ren·AI

商城

amazon-web-services - AWS Glue 爬虫覆盖数据与追加