gpt4 book ai didi

azure - 如何在 ADLA 中的 U-SQL 中添加多个文件中的列?

转载 作者:行者123 更新时间:2023-12-02 07:11:13 25 4
gpt4 key购买 nike

我在 Azure Data Lake 中有很多 csv 文件,其中包含各种类型的数据(例如压力、温度、真/假)。它们都是带有时间戳的,我需要根据时间戳将它们收集在一个文件中以用于机器学习目的。这在 Java 中很容易做到 - 启动文件流,在打开每个文件的文件夹上运行循环,比较时间戳以将相关值写入输出文件,开始一个新列(转到第一行的末尾)每个文件。虽然我已经解决了 U-SQL 中的时间戳问题,但我无法想出可以帮助我在整个文件夹上运行此命令的语法。通配符语法 {*} 将所有文件视为相同的文件集,而我需要运行某种循环来单独连接每个文件中的列。有没有办法做到这一点,也许使用虚拟列?

最佳答案

首先,您必须以功能性/声明性的方式考虑您的问题,而不是基于循环等程序范例。

让我尝试重新表述您的问题,看看是否可以提供帮助。您有许多带有时间戳数据的 csv 文件。不同的文件可以包含具有相同时间戳的行,并且您希望将具有相同时间戳(或时间戳范围)的所有行输出到特定文件?所以你基本上想重新分区数据?

每个文件的格式是什么?它们都具有相同的架构还是不同的架构?在后一种情况下,你如何区分它们?基于文件名?

请在评论中告诉我这是否是正确的声明性重述以及我的问题的答案,我将在下一步中补充我的答案。

关于azure - 如何在 ADLA 中的 U-SQL 中添加多个文件中的列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42936491/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com