gpt4 book ai didi

amazon-web-services - 用于爬取 DynamoDB 的 AWS Glue Crawler 在启动时卡住

转载 作者:行者123 更新时间:2023-12-04 17:30:18 25 4
gpt4 key购买 nike

我使用 AWS Lake Formation 和 AWS Glue Crawler 创建了一个数据湖,以从 DynamoDB 表创建目录(大小:130 GB,ItemCount:739,013,546)。我开始爬虫运行已经 12 小时了,但它的 Status 仍然显示 Starting

花这么多时间正常吗?

PS:爬虫分配的角色有权限扫描我要的DynamoDB表。

编辑:

CloudWatch 中唯一的日志事件是

{
"events": [
{
"timestamp": 1582560218096,
"message": "[6a56a417-0617-4253-a6be-091cc367328b] BENCHMARK : Running Start Crawl for Crawler dynamodb-crawler",
"ingestionTime": 1582560344705
}
]
}

最佳答案

这可能是一个不同的问题,但如果您的表非常大,扫描可能需要很长时间。

我在尝试爬取内部部署的 Oracle 数据库时遇到了同样的问题。我在一个小时后停止了它,除了开始日志之外没有任何日志:

BENCHMARK : Running Start Crawl for Crawler

然后所有日志都带有时间戳,范围从抓取开始到我停止抓取。我不确定为什么它们之前没有出现,或者为什么爬虫仍处于 Starting 状态,但在我的实例中它实际上正在运行。

关于amazon-web-services - 用于爬取 DynamoDB 的 AWS Glue Crawler 在启动时卡住,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60387456/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com