作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想将胶水爬虫设置为仅爬网 s3 存储桶中的新文件夹。根据文档,我似乎想将 RecrawlBehavior 设置为 CRAWL_NEW_FOLDERS_ONLY 。但我找不到任何有关如何在 CloudFormation 模板中执行此操作的指南。
这是我的爬虫现在的配置属性,但我使用的 RecrawlBehavior 无效:
Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\":{\"Partitions\":{\"AddOrUpdateBehavior\":\"InheritFromTable\"},\"Tables\":{\"AddOrUpdateBehavior\":\"MergeNewColumns\"}}}"
最佳答案
据我了解,增量策略是 Glue 中相对较新的功能,Cloud Formation 尚不支持。
我建议克服此限制的解决方法是使用 cloudformation 创建爬网程序,然后使用 AWS CLI 更新其 RecrawlPolicy 属性。
当您使用 cloudformation 创建爬网程序并尝试使用 CLI 检索其属性时,“RecrawlPolicy”将“RecrawlBehavior”设置为“CRAWL_EVERYTHING”。您可以使用以下命令将其更改为增量爬网(仅爬网新文件夹)。
aws glue update-crawler
--name <crawlername>
--recrawl-policy '{"RecrawlBehavior": "CRAWL_NEW_FOLDERS_ONLY"}'
--schema-change-policy '{"UpdateBehavior":"LOG","DeleteBehavior":"LOG"}'
关于amazon-web-services - 如何在我的 CF 模板中设置 Glue Crawler RecrawlPolicy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64721343/
我是一名优秀的程序员,十分优秀!