gpt4 book ai didi

azure - 如何列出 Azure 数据湖第 2 代中按 Azure 数据工厂中的上次修改日期筛选的所有路径?

转载 作者:行者123 更新时间:2023-12-03 03:39:30 25 4
gpt4 key购买 nike

我们有一个 Azure Data Lake Gen 2,其中包含连续传入的数百条 JSON 消息。这些文件存储在文件夹结构中,但不是基于加载时间的。现在,我们需要使用 Azure 数据工厂来检索自上次运行管道以来的所有新 JSON 文件。由于获取元数据事件不允许递归检索文件和文件夹,因此我一直在寻找其他选项。我知道可以使用 Azure 函数,但理想情况下我们希望使用低代码/无代码解决方案。我可以使用 Azure 存储服务 API 使用 Path option 列出给定容器中的所有路径。或List Blobs option 。不幸的是,我似乎找不到根据上次修改日期过滤此内容的选项。由于我们每天都会收到 1000 条新消息,因此我们需要将 API 的响应限制为仅响应自上次管道运行以来传入的文件。对于如何在不使用 Azure 功能的情况下实现此目的的任何建议,我们将不胜感激。

最佳答案

您还可以通过使用 getmetadata 事件旁边的 ForEach 事件来进行递归检索。

使用指向文件夹的 getmetadata 事件并使用字段列表中的 ChildItems 来检索文件夹内的文件名。

使用 ForEach 事件迭代每个文件并使用 Getmetadata 指向参数化数据集。在 getmetadata 事件中,我们使用 childItems 选项中的“LastModified”来获取每个文件的最后修改日期时间。

关于azure - 如何列出 Azure 数据湖第 2 代中按 Azure 数据工厂中的上次修改日期筛选的所有路径?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71884888/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com