gpt4 book ai didi

amazon-web-services - AWS Glue Crawler 为每个分区添加表?

转载 作者:行者123 更新时间:2023-12-03 14:40:15 25 4
gpt4 key购买 nike

我在 S3 存储桶中以这种形式有数千个文件:

├── bucket
│ ├── somedata
│ │   ├── year=2016
│ │   ├── year=2017
│ │   │   ├── month=11
│ │   | │   ├── sometype-2017-11-01.parquet
│ | | | ├── sometype-2017-11-02.parquet
│ | | | ├── ...
│ │   │   ├── month=12
│ │   | │   ├── sometype-2017-12-01.parquet
│ | | | ├── sometype-2017-12-02.parquet
│ | | | ├── ...
│ │   ├── year=2018
│ │   │   ├── month=01
│ │   | │   ├── sometype-2018-01-01.parquet
│ | | | ├── sometype-2018-01-02.parquet
│ | | | ├── ...
│ ├── moredata
│ │   ├── year=2017
│ │   │   ├── month=11
│ │   | │   ├── moretype-2017-11-01.parquet
│ | | | ├── moretype-2017-11-02.parquet
│ | | | ├── ...
│ │   ├── year=...

等等

预期行为:
AWS Glue Crawler 为 somedata、moredata 等中的每一个创建一个表。它根据子项的路径名称为每个表创建分区。

实际行为:
AWS Glue Crawler 执行上述行为,但还为数据的每个分区创建了一个单独的表,从而产生了数百个无关表(以及每个数据添加的更多无关表 + 新爬网)。

我看不到任何地方可以设置某些东西或以其他方式防止这种情况发生......有没有人对防止创建这些不必要的表的最佳方法有建议?

最佳答案

添加到排除项

  • **_SUCCESS
  • **crc

  • 为我工作(参见 aws 页面 glue/add-crawler)。双星匹配所有文件夹(即分区)深度的文件。我有一个 _SUCCESS 住了几个级别。

    确保为胶水设置日志记录,这样可以快速指出权限错误等。

    关于amazon-web-services - AWS Glue Crawler 为每个分区添加表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48373084/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com