gpt4 book ai didi

azure - Polybase:将特定日期/时间范围的数据从外部表加载到根 blob 文件夹

转载 作者:行者123 更新时间:2023-12-02 08:04:12 25 4
gpt4 key购买 nike

我的 Blob 存储帐户中有数据,该帐户按以下结构组织:

/logs/YYYY/mm/dd/HH

假设有几年的数据,我想将特定时间段(或多个时间段)的数据提取到 Azure 数据仓库表中。

以下内容在 Polybase 检索数据的方式方面有何不同:

1) 创建表作为从指向根文件夹 (/logs) 的外部表中选择,并使用 where 子句考虑特定时间值的一系列值(例如 x 和 y 之间的时间戳)。

2) 来自外部表 UNION 的 CTAS,它指向组成我想要的特定时间段的各个文件夹。

我认为上面的 2) 会更快,因为 Polybase 不必查找任何不需要的文件夹?它是否正确?

如果是这样,是否有一种方法可以从指向根文件夹的外部表中进行选择,但以某种方式仅选择特定时间段内的文件?

也许有一些文档可以解释这一点?

最佳答案

是的,你是对的。

1 将引入所有数据,然后在 SQL DW 中应用 where 子句。

2 会更快,因为它只会从单个文件夹中获取数据。

目前,PolyBase 外部表无法识别文件夹/文件/分区,无法根据过滤器子句进行跳过。

关于azure - Polybase:将特定日期/时间范围的数据从外部表加载到根 blob 文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48344008/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com