gpt4 book ai didi

azure - 虚拟文件集列和行集变量 U-SQL

转载 作者:行者123 更新时间:2023-12-01 12:16:11 24 4
gpt4 key购买 nike

我在数据工厂中安排作业时遇到问题。我正在尝试执行每小时计划的作业,该作业将每小时在不同的条件下执行相同的脚本。

假设我有一堆 Avro 文件分布在 Azure Data Lake Store 中,具有以下模式。/Data/SomeEntity/{date:yyyy}/{date:MM}/{date:dd}/SomeEntity_{date:yyyy}{date:MM}{date:dd}__{date: H}

每小时都会有新文件添加到 Data Lake Store。为了仅在决定通过 U-SQL 虚拟文件集列和我在 Data Lake Store 中创建的一些 SyncTable 的帮助下处理这些文件时才处理这些文件。

我的查询如下所示。

DECLARE @file_set_path string = /Data/SomeEntity/{date:yyyy}/{date:MM}/{date:dd}/SomeEntity_{date:yyyy}_{date:MM}_{date:dd}__{date:H};
@result = EXTRACT [Id] long,
....
date DateTime
FROM @file_set_path
USING someextractor;

@rdate =
SELECT MAX(ProcessedDate) AS ProcessedDate
FROM dbo.SyncTable
WHERE EntityName== "SomeEntity";

@finalResult = SELECT [Id],... FROM @result
CROSS JOIN @rdate AS r
WHERE date >= r.ProcessedDate;

由于我无法在 where 子句中使用行集变量,因此我将单行与 set 交叉连接,但即使在这种情况下,U-SQL 也不会找到正确的文件,并且始终返回所有文件集。

有没有解决方法或其他方法?

最佳答案

我认为这种方法应该有效,除非有什么地方不太正确,即您可以确认dbo.SyncTable表的数据类型吗?转储 @rdate 并确保您获得的值是您期望的值。

我制作了一个简单的演示,它按预期工作。我的 SyncTable 副本有一条记录,其值为 01/01/2018:

@working = 
SELECT *
FROM (
VALUES
( (int)1, DateTime.Parse("2017/12/31") ),
( (int)2, DateTime.Parse("2018/01/01") ),
( (int)3, DateTime.Parse("2018/02/01") )
) AS x ( id, someDate );


@rdate =
SELECT MAX(ProcessedDate) AS maxDate
FROM dbo.SyncTable;

//@output =
// SELECT *
// FROM @rdate;

@output =
SELECT *, (w.someDate - r.maxDate).ToString() AS diff
FROM @working AS w
CROSS JOIN
@rdate AS r
WHERE w.someDate >= r.maxDate;


OUTPUT @output TO "/output/output.csv"
USING Outputters.Csv();

我确实使用文件路径尝试过此操作(完整脚本 here )。要记住的是自定义日期格式 H 将小时表示为 0 到 23 之间的数字。如果您的 SyncTable 日期在插入时没有时间部分,则它将默认为午夜 (0),这意味着整个日期天将被收集。根据您的模式,您的文件结构应如下所示:

“D:\Data Lake\USQLDataRoot\Data\SomeEntity\2017\12\31\SomeEntity_2017_12_31__8\test.csv”

我注意到您的文件路径在第二部分有下划线,在小时部分之前有双下划线(介于 0 和 23 之间,个位数到 10 小时)。我注意到您的文件集路径没有文件类型或引号 - 我在测试中使用了 test.csv 。我的结果:

Results

基本上,我认为该方法可行,但有一些不太正确的地方,可能在您的文件结构、SyncTable 中的值、数据类型等中。您需要检查详细信息,转储中间值进行检查,直到你发现问题了。

关于azure - 虚拟文件集列和行集变量 U-SQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48008687/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com