gpt4 book ai didi

aws-glue - AWS Glue Crawler 命名约定

转载 作者:行者123 更新时间:2023-12-01 06:51:44 25 4
gpt4 key购买 nike

我尝试抓取的 s3 路径中有许多项目(使用根路径 s3://my-bucket/somedata/ )

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

有时我们的表是根据日期模式命名的(例如 20180101 );有时它们根据叶级“文件夹”(例如 data1 )命名,有时根据文件(例如 data1.sql )命名,并且当出现冲突时,Glue 似乎只是将唯一标识符附加到表名(例如 data1_c17b2f988649f2171b24b1d35da7f2b4 )。

这里的逻辑是什么?这些名称是确定性的吗?我应该使用哪些模式来构建我的数据,以便爬虫可以按某种逻辑顺序对事物进行编目?

最佳答案

您需要标准化路径以正确获取名称,例如

s3://my-bucket/Customer/Customer_20180101/customer.csv 
s3://my-bucket/Customer/Customer_20180102/customer.csv
s3://my-bucket/Customer/Customer_20180103/customer.csv
s3://my-bucket/Customer/Customer_20180104/customer.csv
s3://my-bucket/Customer/Customer_20180105/customer.csv

将使用 Glue 爬虫加载 Customer 表中的所有文件,一旦您将爬虫指向 s3 上的 Customer 文件夹

关于aws-glue - AWS Glue Crawler 命名约定,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48812747/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com