- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在设计数据工厂管道以将数据从 Azure SQL DB 加载到 Azure 数据工厂。
我的初始加载/POC 是一小部分数据,能够从 SQL 表加载到 Azure DL。
现在,我想使用 DF 将大量表(甚至超过 10 亿)从 SQL DB 加载到 Azure DL。MS 文档提到了两个选项,即水印列和更改跟踪。假设我有一个包含数百万行的“cust_transaction”表,如果我加载到 DL,那么它会加载为“cust_transaction.txt”。问题。
1) 将源数据从 SQL DB 增量加载到数据湖中的该文件的最佳设计是什么?
2) 如何将文件拆分或分区为更小的文件?
3) 我应该如何将源数据中的增量合并并加载到文件中?谢谢。
最佳答案
您将需要多个文件。通常,我的数据湖有多个区域。第一个区域是原始区域。它包含组织到实体/年/月/日文件夹中的源数据的副本,其中实体是 SQL 数据库中的表。通常,这些文件是增量加载。实体的每个增量加载都有一个类似于Entity_YYYYMMDDHHMMSS.txt(甚至可能比这更多的信息)的文件名,而不仅仅是Entity.txt。文件名中的时间戳是增量切片的末尾(数据中可能的最大插入或更新时间),而不仅仅是当前时间(有时它们相对相同,这并不重要,但我倾向于为我的批处理中的所有表获取一致的增量切片结束时间)。您可以通过parameterizing the folder and file in the dataset获取文件名中的日期文件夹和时间戳。 。
Melissa Coates 有两篇关于 Azure Data Lake 的好文章:Zones in a Data Lake和 Data Lake Use Cases and Planning 。她的命名约定与我的有点不同,但我们都会告诉你要保持一致。我首先会将增量加载文件放入原始文件中。它应该反射(reflect)从源加载的增量数据。如果您需要一个合并版本,可以使用数据工厂或 U-SQL(或您选择的工具)来完成,并放置在标准化原始区域中。有一些performance issues对于数据湖中的小文件,因此整合可能会很好,但这完全取决于您计划在将数据放在那里后如何处理数据。大多数用户不会访问 RAW 区域中的数据,而是使用标准化原始区域或策划区域中的数据。另外,我希望 Raw 成为一个不可变的存档,我可以从中重新生成其他区域中的数据,因此我倾向于将其保留在文件中。但如果你发现你需要在那里巩固,那就没问题了。
更改跟踪是获取更改的可靠方法,但我不喜欢他们 example 中的命名约定/文件组织。 。我会确保您的文件名上有实体名称和时间戳。他们有增量 - [PipelineRunID]。我更喜欢 [Entity]_[YYYYMMDDHHMMSS]_[TriggerID].txt
(或保留运行 ID),因为它对其他人来说信息更丰富。我还倾向于使用触发器 ID 而不是管道 RunID。触发器 ID 跨在该触发器实例(批处理)中执行的所有包,而管道 RunID 特定于该管道。
如果您无法进行更改跟踪,则水印没问题。我通常无法向我的源添加更改跟踪,并且必须使用水印。问题在于您相信应用程序的修改日期是准确的。是否存在更新行而修改日期未更改的情况?插入行时,修改日期是否也会更新,或者您是否必须检查两列才能获取所有新行和更改的行?当我们无法使用变更跟踪时,这些是我们必须考虑的事情。
总结:
关于使用文件分区的 Azure Data Lake 增量加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53273550/
只是想知道这些结构之间有什么区别(text、data、rodata、bss 等)在链接描述文件中: .data : { *(.data) } .data : { *(.data*) }
Data 定义为其核心功能之一 gfoldl : gfoldl :: (Data a) => (forall d b. Data d => c (d -> b) -> d -> c b)
以下之间有什么区别:data-sly-use、data-sly-resource、data-sly-include 和 数据-sly-模板?我正在阅读 Sightly AEM 上的文档,我非常困惑。
我有一个 Spring Boot、Spring Data JPA (hibernate) Web 应用程序,并且想引入文本搜索功能。 我理解以下内容 hibernate search 或 spring
我不知道我的代码有什么问题。我读了其他有同样问题的人的一些问题,但没有找到答案。当我尝试编译时出现以下错误: ||In function 'main':| |35|error: expected ex
我不太确定为什么会收到此错误或其含义。我的数据框称为“数据”。 library(dplyr) data %>% filter(Info==1, Male==1) %>% lm(CFL_
我一直在 GitHub 等更现代的网站上看到这些属性,它们似乎总是与自定义的弹出窗口一致,如 title 属性。 Option 1 Option 2 Option 3 Option 4 我在 HTML
如何用 iCloud Core Data 替换我现有的 Core Data?这是我的持久商店协调员: lazy var persistentStoreCoordinator: NSPersistent
我一直在 GitHub 等更现代的网站上看到这些属性,它们似乎总是与自定义的弹出窗口一致,如 title 属性。 Option 1 Option 2 Option 3 Option 4 我在 HTML
我正在通过 this project 在 Android 上摆弄 node.js ,我需要一种方法将 js 文件部署到私有(private)目录(以隐藏源代码,防止用户篡改),该目录也物理存在于文件系
大家好我有点沮丧,所以我希望得到一些帮助。我的项目在 SwiftUI 中。我想使用图像选择器将图像保存到 Core Data。我实现了让 ImagePicker 工作,但我正在努力转换 Image -
我有以下数据和代码: mydf grp categ condition value 1 A X P 2 2 B X P 5
我一直在努力解决这个问题,但我根本找不到任何解决问题的方法。希望这里有人可以提供帮助。 我正在尝试为具有以下结构的某些数据创建个人选择矩阵: # A tibble: 2,152 x 32 a
我了解 Data.Map.Lazy 和 Data.Map.Strict 是不同的。但是,当您导入 Data.Map 时,您究竟导入了什么:严格的、惰性的还是两者的组合? 最佳答案 懒人。看着docs
我正在开发一个 C 程序,用于从 BerkeleyDB DBTree 数据库中提取数据值与特定模式匹配的记录。我创建数据库,打开它,将键的 DBT 和数据的另一个 DBT 清零,将 DBT 标志设置为
所以我有以下成员(member)历史表 User_ID | Start date | End Date | Type(0-7) | ---------------------------
随着最近推出的包dataframe ,我认为是时候正确地对各种数据结构进行基准测试,并突出每种数据结构的优势。我不是每个人的不同优势的专家,所以我的问题是,我们应该如何对它们进行基准测试。 我尝试过的
我有来自 API 的数据,但无法将数组中的数据设置为 vue.js 中的 this.data这是来自 API 的数据(JSON) 你能告诉我这个语法吗 {"id":1613, "name_org":"
在 Vue.js到目前为止,我已经找到了两种定义数据的方法:data: {} 和 data() { return; }. data: { defaultLayout: 'default' }
我正在研究Spring Data Rest Services,并在自定义拦截器中遇到一些问题。之前我使用spring-data-rest-webmvc 2.2.0并以以下方式添加了拦截器。 publi
我是一名优秀的程序员,十分优秀!