gpt4 book ai didi

amazon-web-services - 如何在我的 CF 模板中设置 Glue Crawler RecrawlPolicy

转载 作者:行者123 更新时间:2023-12-03 07:13:28 28 4
gpt4 key购买 nike

我想将胶水爬虫设置为仅爬网 s3 存储桶中的新文件夹。根据文档,我似乎想将 RecrawlBehavior 设置为 CRAWL_NEW_FOLDERS_ONLY 。但我找不到任何有关如何在 CloudFormation 模板中执行此操作的指南。

这是我的爬虫现在的配置属性,但我使用的 RecrawlBehavior 无效:

Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\":{\"Partitions\":{\"AddOrUpdateBehavior\":\"InheritFromTable\"},\"Tables\":{\"AddOrUpdateBehavior\":\"MergeNewColumns\"}}}"

最佳答案

据我了解,增量策略是 Glue 中相对较新的功能,Cloud Formation 尚不支持。

我建议克服此限制的解决方法是使用 cloudformation 创建爬网程序,然后使用 AWS CLI 更新其 RecrawlPolicy 属性。

当您使用 cloudformation 创建爬网程序并尝试使用 CLI 检索其属性时,“RecrawlPolicy”将“RecrawlBehavior”设置为“CRAWL_EVERYTHING”。您可以使用以下命令将其更改为增量爬网(仅爬网新文件夹)。

aws glue update-crawler 
--name <crawlername>
--recrawl-policy '{"RecrawlBehavior": "CRAWL_NEW_FOLDERS_ONLY"}'
--schema-change-policy '{"UpdateBehavior":"LOG","DeleteBehavior":"LOG"}'

关于amazon-web-services - 如何在我的 CF 模板中设置 Glue Crawler RecrawlPolicy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64721343/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com