Azure数据工厂 "flatten hierarchy"-6ren

Azure数据工厂 "flatten hierarchy"

转载作者：行者123 更新时间：2023-12-02 23:42:00

27

4

我希望有人经历过相同的过程并可以帮助我看看以下情况是否可能。

我目前构建了一个从 S3 存储桶进行复制的管道。该存储桶包含大量文件夹。 Azure 数据工厂是否有办法在从 S3 存储桶复制数据时忽略文件夹而只复制文件本身？我读过，复制事件具有“扁平化层次结构”，但我看到的最大限制是所有文件都被重命名，我不确定这些文件是否是这些文件夹中包含的所有文件，因为它提到它仅在“目标文件夹的第一层”中执行。

另一个问题是 S3 存储桶具有嵌套文件夹(例如:“domain/yyyy/mm/dd/file”)，有些文件夹包含数据，有些不包含数据。唯一的优点是所有这些文件都包含相同的架构。

该管道的最终结果如下:

1) 从 S3 存储桶复制文件，而不复制文件夹结构2) 将文件加载到 Azure 数据库

如果有人使用 Azure 数据工厂或其他工具做过类似的事情，我将非常感谢您的见解。

最佳答案

vlado101，首先，我不得不说，您在问题中提到的“扁平化层次结构”适用于 sink ，非来源:

由于您的目的地是SQL DB，我认为这种复制行为与您的要求无关。根据我的测试(blob 存储，不是 aws s3，抱歉，因为我没有 asw 服务):

子文件夹中有 2 个 json 文件:

我配置了源数据集:

请确保recursive选择为true(指示是否从子文件夹递归读取数据或仅从指定文件夹读取数据。请注意，当recursive设置为true并且接收器是基于文件的存储时，不会复制空文件夹或子文件夹或在接收器处创建)并预览源数据如下

执行复制事件，子文件夹文件中的所有数据都将传输到目标 SQL 数据库表中:

当然，这个测试是基于 blob 存储，而不是 s3 存储桶。我相信它们是相似的，你可以测试一下。如有任何疑问，请告诉我。

关于Azure数据工厂 "flatten hierarchy"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58918399/

27

4

0

文章推荐： elasticsearch - Elasticsearch-子查询和重用查询

文章推荐： elasticsearch - 启动 logstash 时出现 HostUnreachableError

python - torch.flatten() 和 nn.Flatten() 之间的区别
torch.flatten() 和 torch.nn.Flatten() 有什么区别？最佳答案扁平化在 PyTorch 中以三种形式提供作为张量方法(oop 风格) torch.Tensor.f
C 判断 "un-flattened"第i个元素在n维数组中的 "flattened"位置
我有以下(不完整的)功能: /* Populates char* name with the named location of the ith (flat) element * of an arr
python - Keras Flatten Conv3D ValueError Flatten 的输入形状未完全定义
我正在尝试使用 Keras 和基于 Marcin 的 PS3 示例的 Tensorflow 后端构建一个可变长度序列分类模型:https://stackoverflow.com/a/42635571/
python - Tensorflow flatten vs numpy flatten 函数对机器学习训练的影响
我开始使用 keras 和 tensorflow 进行深度学习。在最初阶段，我有一个疑问。当我使用 tf.contrib.layers.flatten (Api 1.8) 用于拼合图像(也可以是多 c
svg - "Flatten"转换为Path？
鉴于以下SVG: 是否有任何工具可以通过变换自动更新路径点，并从组元素中删除变换？我有一个SVG应用程序(草图)，它使用转换属性(如果您
python - Flatten 函数检索错误的值
我目前有一个 Python 脚本，它使用 flatten 函数来展平 JSON 对象，然后我将使用 json_normalize将扁平的 JSON 转换为 DataFrame。 import pand
scala - 了解Scala中的Option.flatten
我注意到Option.flatten是defined，如下所示: def flatten [B](隐式ev:A To) with Serializable ... implicit def conf
Azure数据工厂 "flatten hierarchy"
我希望有人经历过相同的过程并可以帮助我看看以下情况是否可能。我目前构建了一个从 S3 存储桶进行复制的管道。该存储桶包含大量文件夹。 Azure 数据工厂是否有办法在从 S3 存储桶复制数据时忽略文
Azure数据工厂 "flatten hierarchy"
我希望有人经历过相同的过程并可以帮助我看看以下情况是否可能。我目前构建了一个从 S3 存储桶进行复制的管道。该存储桶包含大量文件夹。 Azure 数据工厂是否有办法在从 S3 存储桶复制数据时忽略文
C# Flatten 嵌套对象
这个问题在这里已经有了答案: How to flatten tree via LINQ? (15 个答案) 关闭 6 年前。我有一个嵌套类: class Item {
MySQL查看 "flattens"数据
我有下表: group_id amount type 1 10 1 1 2 1 1 5 2 1
c++ 容器容器的通用 `flatten`
我有兴趣实现一个通用的 flatten一个容器的容器为了简化，我会使用自己的容器。主要原因是标准容器接收分配器的附加模板参数，这对我编写操作来说更复杂。因此，考虑容器 Vector , List等让
python - "Flatten"列表中的一串单词
给定如下列表(我的实际列表比这个长，列表中至少有100个子列表): [[135, "Apple Banana"], [136, "Peach Watermelon"], [137, "Orange S
Python::flatten 一个不规则的列表列表
这个问题在这里已经有了答案: Flatten an irregular (arbitrarily nested) list of lists (51 个答案) 关闭 5 年前。我有一个不规则的数据
arrays - "Flattening"元胞数组
我创建了一个函数，它接受输入变量的向量，并为每组输入返回一个元胞数组。最终输出变量 (out) 似乎由一个包含两个 1x5 单元格的 2x1 单元格组成。我在下面提供了截图: 我只是想弄清楚如何将元胞
arrays - Flatten 在直接调用和在方法中调用时的工作方式不同
我正在尝试编写一个方法，它将接受一个由字符 0、1 和 ? 组成的字符串，并返回由原始字符串表示的一组字符串，将 ? 作为通配符，可以是 0 或 1。例如，如果输入是 "011?0"，则输出应该是 [
hadoop - "Flattening"Pig中的一个数据包
假设我有一堆从 Pig UDF 生成的数据包，其中包含多个字符串元组。我怎样才能将它们全部从数据包中拉出来并简单地使每个字符串成为它自己的数据“行”。 databags = FOREACH 数据生成
python - "Flattening"字典列表
所以我的目标是: fruitColourMapping = [{'apple': 'red'}, {'banana': 'yellow'}] 到 finalMap = {'apple': 'red',
rust - 如何在自定义序列化和反序列化中使用 "flatten"之类的东西
我需要使用 Serialize 和 Deserialize 的自定义实现，但我不知道如何做 #[serde(flatten)] 有没有人知道？注意:我知道我可以将较低元素的完整实现完全重写到较高元素
arrays - 如何使 FLATTEN 对非连续范围起作用？
我有一个 FLATTEN LAMBDA 函数，可以将数组中的数据展平。这很好用，但我想集成另一个数组参数，这样我就可以使用不连续的范围。在我的示例中，A1:B6 范围位于 array 中并返回展平数

首页

博学

6Ren·AI

商城

Azure数据工厂 "flatten hierarchy"