gpt4 book ai didi

amazon-web-services - Glue 爬虫从分区的 S3 存储桶中创建了多个表

转载 作者:行者123 更新时间:2023-12-05 06:21:35 25 4
gpt4 key购买 nike

我有一个结构如下的 S3 存储桶:

root/
├── year=2020/
│ └── month=01
│ ├── day=01
| | ├── file1.log
| | ├── ...
| | └── file8.log
│ ├── day=...
│ └── day=31
| ├── file1.log
| ├── ...
| └── file8.log
└── year=2019/
├── ...

每天会有 8 个同名的文件 ─ 会有一个 file1.log在每个“日”文件夹中。我使用自定义分类器抓取了这个桶。

预期行为:Glue 将创建一个单独的表,其中年月日作为分区字段,以及我在自定义分类器中描述的其他几个字段。然后我可以在我的作业脚本中使用该表。

实际行为:

1) Glue 创建了一张满足我期望的表格。但是,当我尝试在作业脚本中访问它时,该表没有列。

2) Glue 为每个“day”分区创建一个表,并为每个 file<number>.log 创建 8 个表文件

我试过排除 **_SUCCESS**crc就像人们在另一个问题上建议的那样:AWS Glue Crawler adding tables for every partition?但是,它似乎不起作用。我还检查了爬虫设置中的“为每个 S3 路径创建一个单一模式”选项。还是不行。

我错过了什么?

最佳答案

您应该在根目录下有一个文件夹(例如 customers),并且在其中应该有分区子文件夹。如果您在 S3 存储桶级别有分区,则不会创建一张表。

关于amazon-web-services - Glue 爬虫从分区的 S3 存储桶中创建了多个表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59727659/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com