amazon-web-services - 用于爬取 DynamoDB 的 AWS Glue Crawler 在启动时卡住-6ren

amazon-web-services - 用于爬取 DynamoDB 的 AWS Glue Crawler 在启动时卡住

转载作者：行者123 更新时间：2023-12-04 17:30:18

25

4

我使用 AWS Lake Formation 和 AWS Glue Crawler 创建了一个数据湖，以从 DynamoDB 表创建目录(大小:130 GB，ItemCount:739,013,546)。我开始爬虫运行已经 12 小时了，但它的 Status 仍然显示 Starting。

花这么多时间正常吗？

PS:爬虫分配的角色有权限扫描我要的DynamoDB表。

编辑:

CloudWatch 中唯一的日志事件是

{
    "events": [
        {
            "timestamp": 1582560218096,
            "message": "[6a56a417-0617-4253-a6be-091cc367328b] BENCHMARK : Running Start Crawl for Crawler dynamodb-crawler",
            "ingestionTime": 1582560344705
        }
    ]
}

最佳答案

这可能是一个不同的问题，但如果您的表非常大，扫描可能需要很长时间。

我在尝试爬取内部部署的 Oracle 数据库时遇到了同样的问题。我在一个小时后停止了它，除了开始日志之外没有任何日志:

BENCHMARK : Running Start Crawl for Crawler

然后所有日志都带有时间戳，范围从抓取开始到我停止抓取。我不确定为什么它们之前没有出现，或者为什么爬虫仍处于 Starting 状态，但在我的实例中它实际上正在运行。

关于amazon-web-services - 用于爬取 DynamoDB 的 AWS Glue Crawler 在启动时卡住，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60387456/

25

4

0

文章推荐： botframework - 允许聊天机器人使用多个 Microsoft App ID

文章推荐： apache-spark - WAL 在 Spark Structured Streaming 中的位置

文章推荐： r - 用 R 加速迭代循环计算

文章推荐： php - 当我单击导出时，phpmyadmin 中出现此错误

aws-glue - AWS Glue - 如何查询 LOCATION 的 Glue 目录？
任何人都知道如何(Athena w Glue)返回我知道其表名的表的完整 s3://地址。比如: SELECT location FOR TABLE xyz; 看起来很简单，但我找不到它最佳答案找
aws-glue - 我可以在基于 Python 的 Glue 作业中的 Glue 连接上执行任意 SQL 吗？
在我的 Glue 工作中，我可以访问一个“连接”，它授予访问某种数据库(在我的例子中是 Redshift)的权限。我可以用 glue_context.write_dynamic_frame.from_
aws-glue - AWS Glue Job运行太慢
我们有以下要求: 从1990年到2018年的年度XML文件(大小为15-20 GB) 每周XML文件(大小为3-6 GB)，其中包含更新的XML记录到1990年至2018年的任何年度数据我们需要运行
aws-glue - Aws Glue 目录表保留
来自 aws 文档中的这个 https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-tables.html ，他们提到了这个 ”
amazon-web-services - 从正在运行的 AWS Glue 作业的上下文中使用 boto3 调用 AWS Glue 客户端 API 时，AWS Glue 作业挂起？
我正在尝试创建一个 Glue 作业，它枚举目录中数据库中的所有表。为此，我使用以下代码片段: session = boto3.Session(region_name='us-east-2') glue
aws-glue - 在 AWS Glue 中读取配置文件
在部署到 AWS Glue 之前，我创建了一个 Glue 开发端点来测试我的代码。下面是项目架构的屏幕截图。 Project layout在 gluelibrary/中有 config.ini 我能够
aws-glue - 是否可以使用一个 AWS Glue 作业将数据写入不同的数据库？
我计划使用 AWS Glue 来完成一项简单的工作，即从 AWS s3 存储桶中提取数据并将其加载到 RDS 数据库中。计划是使用 AWS 向导创建一个 python 脚本，修改最少。问题是我需要将
aws-glue - AWS glue 每次都将完整数据从源复制到目标，即使有书签也是如此
我有一个从 aws glue 控制台中的向导生成的胶水作业。我没有更改生成任务时的默认脚本。它从 posgres 数据库表(源)获取数据并写入另一个 postgres 数据库(目标)。我在ide中选择
aws-glue - AWS Glue Crawler 命名约定
我尝试抓取的 s3 路径中有许多项目(使用根路径 s3://my-bucket/somedata/ ) s3://my-bucket/somedata/20180101/data1/stuff.txt
r - 使用 glue::glue 粘贴会更改 facet 中值的顺序
基于此回复 How to add greek letters to Facet_Grid strip labels? ，我成功地创建了一个在 facet 标签中带有希腊字母的 ggplot。但是胶水
aws-glue - AWS Glue - 启动 ETL 作业并挂起执行
有时，当我想在 AWS Glue 中运行 ETL 作业时，它会立即触发。但是我经常遇到在 ETL 作业执行任何操作之前需要几分钟的时间 - 我在日志中看不到任何内容，只有“待执行”。有什么办法可以影响
aws-cloudformation - 如何使用云形成在 Glue 爬虫中指定 Glue 表和模式
我正在使用 CFT 创建 Glue 数据库、Glue 表和 Glue Crawler，请在下面找到我的代码。在我的 Glue Crawler 中，我想在 Glue Crawler 中指定粘合表“myT
python - 如何使用 AWS Glue Operator 触发 Glue 作业
我的 Airflow 脚本只有一个任务来触发粘合作业。我能够创建 DAG。下面是我的 DAG 代码。 from airflow import DAG from airflow.operators.em
amazon-web-services - 在 Glue 作业中创建 Glue 数据目录表
我有一个我认为非常简单的要求。我想创建一个作业，将一个文件转换为另一个文件，然后更新 Glue 中的数据目录元数据。这将允许另一个作业获取新数据源并使用 Glue/EMR/Athena 使用它。现
aws-glue - 通过 AWS Glue Python 脚本连接到 Postgres
通过 AWS Glue 文档，我看不到任何关于如何通过“Python shell”类型的 Glue 作业连接到 Postgres RDS 的内容。我已经在 AWS Glue 中设置了 RDS 连接并验
aws-glue - 来自 AWS secret 管理器的 AWS Glue 连接
在 AWS Glue 中创建 JDBC 连接时，有什么方法可以从 AWS secret manager 获取密码而不是手动硬编码吗？最佳答案我必须在我当前的项目中这样做才能连接到 Cassandr
aws-glue - 如何在 Python Shell Glue 作业中使用 CloudWatch 自定义日志组？
我有一些“Python Shell”类型的 Glue 作业，我想将作业日志发送到自定义 CloudWatch 日志组而不是默认日志组。通过提供如下作业参数，我能够为“Spark”类型的胶水作业实现这
aws-glue - 使用来自外部 REST API 的数据的 AWS Glue 作业
我正在尝试创建一个工作流，其中 AWS Glue ETL 作业将从外部 REST API 而不是 S3 或任何其他 AWS 内部源提取 JSON 数据。这甚至可能吗？有人做吗？请帮忙! 最佳答案
python - AWS Glue - 如何使用 BOTO3 更改 Glue Catalog 表中的列名？
我正在使用 AWS Glue 爬虫从 S3 zip 文件(无 header )中读取并填充 Glue 目录。列默认命名为:col_0、col_1... 如何使用例如更改这些列名称python bot
AWS Glue: How to write to S3 cross account(AWS Glue：如何写入S3交叉账户)
我的帐户(帐户本地)中有一个Glue作业，我需要将ETL输出写入另一个帐户(帐户远程)。该作业以本地帐户中的IAM角色运行：glue-job-ole。Account-Remote中有一个IAM角色，名

首页

博学

6Ren·AI

商城

amazon-web-services - 用于爬取 DynamoDB 的 AWS Glue Crawler 在启动时卡住