gpt4 book ai didi

azure - 将最新文件从 S3 复制到 Azure Blob(使用 Azure Factory V2)

转载 作者:行者123 更新时间:2023-12-04 15:46:27 26 4
gpt4 key购买 nike

我对 Azure 数据工厂还是个新手,正在尝试将每天转储到 S3 文件夹/存储桶中的文件移动到 Azure blob。我已经在数据工厂中创建了数据集(用于源和接收器)和链接服务。

但是由于我的 S3 存储桶每天都会收到新文件,我想知道如何每天移动 S3 中删除的最新文件(例如美国东部时间凌晨 5 点)。我在网上浏览了大部分答案,例如 this , this , thisthis 。但他们都没有解释如何找出 S3 中的最新文件(可能基于上次修改的日期/时间或通过匹配像“my_report_YYYYMMDD.csv.gz”这样的文件名模式 )并且仅将该文件复制到目标 blob。

预先感谢您的帮助/回答!

最佳答案

我的想法如下:

1.首先,请务必在调度触发器中配置您的管道执行。请参阅此link .

2.使用Get metadata activity ,它支持 Amazon S3 Connector,以获取 S3 数据集中的文件。

enter image description here

获取最后修改的内容和文件名等元数据。

enter image description here

3.将这些包含lastModified时间和文件名的元数据数组放入Web Activity中或Azure Function Activity 。在其余的 api 或函数方法中,您可以执行排序逻辑业务来获取最新修改的文​​件。

4.从Web Activity或Azure Function Activity获取文件名,然后将其复制到Azure Blob存储中。

另一个想法是使用Custom-Activity .您可以使用.net代码实现您的需求。

关于azure - 将最新文件从 S3 复制到 Azure Blob(使用 Azure Factory V2),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55579778/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com