amazon-web-services - AWS Glue 不删除或弃用通过现已删除的 S3 数据生成的表-6ren

amazon-web-services - AWS Glue 不删除或弃用通过现已删除的 S3 数据生成的表

转载作者：行者123 更新时间：2023-12-04 08:01:48

26

4

由于用户错误，Glue 爬虫经常运行的 S3 目录中充满了 .csv 文件。当 Glue 遍历 S3 目录时，它为 200,000 多个 csv 文件中的每一个创建了一个表。我运行了一个脚本，该脚本在不久之后删除了 .csv 文件(S3 存储桶启用了版本控制)，并使用以下设置重新运行 Glue 爬虫:

Schema updates in the data store    Update the table definition in the data catalog.
Inherit schema from table   Update all new and existing partitions with metadata from the table.
Object deletion in the data store   Delete tables and partitions from the data catalog.

在 cloudwatch 日志中 - 它正在更新与剩余数据匹配的表，但不会删除从这些 .csv 文件生成的任何表。根据它在 Cloudwatch 上的配置日志 - 它应该能够这样做。

INFO : Crawler configured with Configuration 
{
    "Version": 1,
    "Grouping": {
        "TableGroupingPolicy": "CombineCompatibleSchemas"
    }
}
 and SchemaChangePolicy 
{
    "UpdateBehavior": "UPDATE_IN_DATABASE",
    "DeleteBehavior": "DELETE_FROM_DATABASE"

我应该包括另一个设置为在 S3 存储桶上爬行的爬虫，但它已经一年多没有运行了，所以我怀疑这可能是一个冲突点。

我对可能的问题感到困惑；就目前而言，我可以编写一个脚本来匹配现有表并删除名称中带有 csv 的表，或者通过让 Glue 重新爬行 S3 来删除并重建数据库，但如果可能的话 - 我宁愿 Glue 删除表识别后它们本身不指向 S3 本身内的任何文件。

最佳答案

我目前正在采用编写脚本的方法来删除 Athena 创建的表。 Athena 查询生成的所有文件都是 49 个字符长，结果文件有五个 _ 字符，元数据有六个 _ 字符，并且通常遵循以结尾的格式_csv 表示生成的查询结果，_csv_metadata 表示查询元数据。

我得到了我数据库中所有表名的列表，过滤它只包括那些长度为 49 个字符，以 _csv_metadata 结尾，并且有六个 _其中的字符。我正在遍历每个字符串并删除它们在数据库中的对应表。对于以 _csv 结尾的结果查询，我将截断 _csv_metadata 字符串的尾随九个字符，从而截断 _metadata。

如果我要对此进行改进，我还会查询该表并确保其中没有数据并匹配某些列名定义。

关于amazon-web-services - AWS Glue 不删除或弃用通过现已删除的 S3 数据生成的表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59796415/

26

4

0

文章推荐： visual-studio-code - Vscode API - 自定义 View 容器未显示

文章推荐： amazon-web-services - AWS Lambda 函数超时

文章推荐： amazon-web-services - AWS 服务使用 Java API 进行语音到文本

iPhone:删除/删除 SQLite 数据库？
我知道如何通过iPhone开发创建sqlite数据库、向其中插入数据、删除行等，但我试图以编程方式删除整个数据库本身，但没有得到任何帮助。请有人指导我如何通过代码从设备中删除/删除整个 sqlite
teradata - 删除/删除 Teradata 中的数据库
请帮助指导如何在 Teradata 中删除数据库。当我运行命令DROP DATABASE database_name时，我收到错误消息: *** Failure 3552 Cannot DROP d
azure - 删除/删除 Azure 警报规则
Azure 警报规则的删除命令似乎不起作用，尝试了下面的方法，它返回状态为无内容，并且警报未被删除使用的命令Remove-AzAlertRule -ResourceGroup "RGName"-Na
elasticsearch - Elasticsearch 数据丢失/删除/删除
我在 flex 搜索中为大约50000个视频建立了索引，但是当它达到52000左右时，所有数据都被删除。嗯，这对我来说真的很奇怪，我没有为ES设置任何Heap大小或最小或最大大小的内存大小，因此它们没
python - Django:删除/删除 slug
我正在处理的问题是表单错误“输入由字母、数字、下划线或连字符组成的有效‘slug’。” 以下是我的表单字段验证: def clean_slug(self): slug = self.c
jQuery 删除 : $ ("..."). 删除() 与 .remove ("...")
阅读文档，我希望 $("#wrap2").remove(".error") 从中删除所有 .error 元素#wrap2。然而看看这个 JSFiddle: http://jsfiddle.net/h
php - 删除/删除 laravel 项目
嗨，我第一次尝试发现 laravel 我从 laravel 4.2 开始，我刚刚创建了一个新项目，但我误以为我写了这样的命令行 composer create-project laravel/lara
Apache 2.4 - 删除 |删除 |卸载
我已经在网上搜索了很长一段时间，但我找不到如何完全删除 apache 2.4 。使用: Windows 7 c:\apache24\ 我已经尝试了所有命令，但没有任何效果。 httpd -k shu
python - 删除/删除 pandas DataFrame 中任意列中具有特定字符串的行
可能是一个简单的答案，所以提前道歉(最少的编码经验)。我正在尝试从任何列中删除具有特定字符串(经济 7)的任何行，并且一直在尝试离开此线程: How to drop rows from pandas
c++ - 删除/删除 vector 项的最有效/最快的方法
有几种方法可以删除/移除 vector 中的项目。我有一个指针 vector ，我需要在类的析构函数中删除所有指针。什么是最有效/最快甚至最安全的方式？ // 1º std::for_each(v
linux - 删除 xinetd 导致 plesk 删除
我安装了一个 VNC 服务器并在某处阅读了我必须安装 xinetd 的信息。稍后我决定删除 VNC 服务器，所以我也删除了 xinetd。似乎 xinetd 删除了一些与 plesk 相关的文件，如果
android - 如何完全杀死/删除/删除/停止 AsyncTask
我制作了一个从我们的服务器下载视频的应用。问题是: 当我取消下载时，我打电话: myAsyncTask.cancel(true) 我注意到，myAsyncTask 并没有在调用取消时停止...我的 P
machine-learning - 删除/删除 Vertica 中的机器学习模型(如果存在)
是否可以在使用DELETE_MODEL删除模型之前检查模型是否存在我试图避免在尝试删除尚未创建的模型时收到错误消息。基本上我正在寻找对应的: DROP TABLE IF EXISTS 但对于模型。最
php - 如何使用 php 删除/删除 mySQL 中的特定表行？
我已经有了这个代码: 但它仍然会生成一个表行条目。我想做的是，当输入的数量为0时，表行将被删除。请耐心等待，因为我是 php 和 mySQL 编码新手。最佳答案您忘记执行查询。应该是 $que
c# - 删除 EWS 中的 Exchange 事件修改/删除(即恢复事件)
在 SharePoint 中，如果您删除/修改重复日历条目的单次出现，则不会真正删除/修改任何内容 - 相反，会创建一个新条目，告诉 SP 对于特定日期，该事件不存在或具有新参数. 因此，这可以通过删
javascript - Laravel 5.2 & Dropzone.js - 删除(删除)上传的图片
在 routes.php 中我有以下路由: Route::post('dropzone', ['as' => 'dropzone.upload', 'uses' => 'AdminPhotoContr
Node.JS app.get 错误..无法获取/删除/删除/15
在我的应用程序中，我正在尝试删除产品。当我第一次删除产品时，它会成功并且 URL 更改为/remove_category/15。我正在渲染到同一页面。现在，当我尝试删除另一个产品时，网址更改为/rem
bash - 匹配后如何使用 BSD/OS X sed 删除/删除 X 行
这个问题被问了很多次，但给出的答案都是 GNU sed 特定的。 sed -i '' "/${FIND}/,+2d""$FILE" 给出“预期的上下文地址”错误。有人可以给我一个例子，说明如何使用
javascript - Google Maps JavaScript API V3 - 卸载/解构/删除/删除
在使用 V3 API 时，我找不到任何方法来删除和清理 Google map 。我已经在 AJAX 站点中运行它，所以我想完全关闭它而无需重新加载页面。我希望有一个 .unload() 或 .de
sql-server - 如何创建一个可以创建/更改/删除 View 但不能表、可以读取数据但不能插入/更新/删除/截断数据的 Azure SQL 数据库用户？
是否可以创建一个 Azure SQL 数据库用户来执行以下操作: 针对所有表和 View 进行 SELECT 创建/更改/删除 View 但用户不应该不拥有以下权限: 针对任何表或 View 插入/更

首页

博学

6Ren·AI

商城

amazon-web-services - AWS Glue 不删除或弃用通过现已删除的 S3 数据生成的表