gpt4 book ai didi

azure - 仅将最新文件数据加载到 Azure SQL 数据仓库

转载 作者:行者123 更新时间:2023-12-03 04:20:06 24 4
gpt4 key购买 nike

第 1 步:我们应该将 CSV 文件从本地文件服务器复制到 Azure Blob 存储(例如 Blob 存储中的“暂存”容器)。步骤#2:应用 Polybase,我们将这些文件数据加载到 Azure SQL 数据仓库。

每次从本地文件服务器加载到 Azure Blob 时,我们都会维护相同的文件名(与临时数据库表同步)。我们在从 Blob 存储将数据加载到 Azure 数据仓库时面临挑战,因为在每个批处理周期执行期间(使用 ADF 管道运行),我们必须处理和加载从暂存到 Azure SQL DWH 的所有文件。我们每天运行 4 个批处理周期。对于每个周期,我们都会处理最新的文件以及已处理的旧文件。有什么办法,我们只能为每个批处理作业加载本地文件服务器上当前可用的文件。 (我的意思是,我们将把这些文件加载​​到暂存区,并且仅将这些文件处理到 sql dwh,而不接触其他文件)。

最佳答案

我也遇到了同样的问题。我所做的就是在 CSV 文件中添加一列 ExtractDate,然后仅从 PolyBase 中选择那些记录作为我想要的 ExtractDate。目前 PolyBase 不支持从 blob 检测增量文件。所以,这个解决方法对我有用。

关于azure - 仅将最新文件数据加载到 Azure SQL 数据仓库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49869527/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com