gpt4 book ai didi

aws-glue - 胶水爬虫排除模式

转载 作者:行者123 更新时间:2023-12-02 21:41:52 25 4
gpt4 key购买 nike

我有一个 s3 存储桶,我正在尝试对其进行爬网和编目。格式如下,其中 SQL 文件是与不同数据文件的架构相匹配的 DDL 查询(CREATE TABLE 语句),即 data1data2 等)

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

我只想对 data1 进行编目,因此我尝试使用 exclude patterns in the Glue Crawler - 见下文 - 即 *.sqldata2/*

不幸的是,爬网程序仍在对 s3://my-bucket/somedata/根路径中的所有内容进行分类。我可以接受对 data2 进行编目;我最关心/恼火的是 sql 文件。

有人有排除模式的经验或能够指出这里出了什么问题吗?

最佳答案

排除模式中的 * 不跨目录,但 ** 确实跨目录。

要排除所有 .sql 文件,您可以使用:**.sql

您的 data2/* 排除项的完整路径是 s3://my-bucket/somedata/data2/*,但它缺少您的日期分区文件夹。通过在前面添加 * 可以解决此问题。

要排除 data2/ 目录,请使用:*/data2/*

关于aws-glue - 胶水爬虫排除模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48812463/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com