gpt4 book ai didi

sql - Snowflake 中 COPY INTO 命令中的正则表达式

转载 作者:行者123 更新时间:2023-12-02 06:14:21 25 4
gpt4 key购买 nike

我在 azure blob 存储中只有几个 CSV 文件,我们正在使用 COPY INTO 命令来加载雪花表中的文件。问题是:文件系统是:容器>>文件夹(例如:帐户)>>文件数量,例如2011-09.csv 2011-10.csv 同样,帐户文件夹还有一个子文件夹“快照”,其中也有类似的文件数据但名称不同,例如 2019-11_1654478715.csv因此,在使用 COPY INTO 命令时,Snowflake 中的目标表会填充重复的行。

我正在使用这个:

从“azure://abc.blob.core.windows.net/abc-abc/account”复制到 BINGO_DWH_DEV.LANDING.CRM_ACCOUNT_TEMP 凭证=(azure_sas_token= 'abc') ON_ERROR='CONTINUE' FILE_FORMAT=(type =csv field_delimiter=','FIELD_OPTIONALLY_ENCLOSED_BY='"');

有什么想法可以使用带有正则表达式的 COPY INTO 命令,该命令只能选择“2011-09.csv”等文件,而不是快照文件夹中的文件。

感谢您的帮助

最佳答案

您可以使用pattern关键字作为正则表达式来根据模式插入文件。

请引用the Snowflake documentation .

示例:

copy into emp_basic
from @%emp_basic
file_format = (type = csv field_optionally_enclosed_by='"')
pattern = '.*2011-19.*.csv.gz'
on_error = 'continue';

这取决于您设置阶段位置的方式(Azure blob、S3 或 GCP)。假设您的文件位于“文件夹”s3://yourbucket/folder1/[filename],gz 中。并且您已将阶段设置为指向 s3://yourbucket 使用的模式:

pattern='.*2011-09*.csv.*.gz'

然后它将扫描 s3://yourbucket 下的所有文件。

但是,如果您的阶段已设置为指向文件夹 s3://yourbucket/folder1/ 并且使用的模式为:

pattern='.*2011-09.*csv.*.gz'

然后它只会在 s3://yourbucket/folder1/ 中查找。

关于sql - Snowflake 中 COPY INTO 命令中的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72653461/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com