gpt4 book ai didi

azure 数据工厂: iterate over millions of files

转载 作者:行者123 更新时间:2023-12-03 02:50:11 25 4
gpt4 key购买 nike

之前我遇到了如何将多个 JSON 文件合并为一个文件的问题,我能够用这个question的答案来解决它.

首先,我尝试通过在输入数据集的连接部分的文件名中使用通配符来仅处理一些文件。但是,当我删除文件名时,理论告诉我,当我在复制事件的源部分中选中递归复制选项时,所有文件夹中的所有文件都将递归加载。

问题是,当我从数据集的输入中删除文件名后手动触发管道时,只有部分文件被加载,任务成功结束,但只加载了大约 400+ 个文件,每个文件夹有 1M+文件,我想通过合并源的所有小 JSON 文件来创建大 csv 文件(我已经能够通过映射复制事件中的架构来创建 csv 文件)。

enter image description here enter image description here

最佳答案

它可能由于超时或内存不足异常而停止。

一种解决方案是使用

循环目录的内容

Directory.EnumerateFiles(searchDir)

这样您就可以处理所有文件,而无需同时将所有文件的列表/内容存储在内存中。

关于 azure 数据工厂: iterate over millions of files,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56583501/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com