- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在设计数据工厂管道以将数据从 Azure SQL DB 加载到 Azure 数据工厂。
我的初始加载/POC 是一小部分数据,能够从 SQL 表加载到 Azure DL。
现在,我想使用 DF 将大量表(甚至超过 10 亿)从 SQL DB 加载到 Azure DL。MS 文档提到了两个选项,即水印列和更改跟踪。假设我有一个包含数百万行的“cust_transaction”表,如果我加载到 DL,那么它会加载为“cust_transaction.txt”。问题。
1) 将源数据从 SQL DB 增量加载到数据湖中的该文件的最佳设计是什么?
2) 如何将文件拆分或分区为更小的文件?
3) 我应该如何将源数据中的增量合并并加载到文件中?谢谢。
最佳答案
您将需要多个文件。通常,我的数据湖有多个区域。第一个区域是原始区域。它包含组织到实体/年/月/日文件夹中的源数据的副本,其中实体是 SQL 数据库中的表。通常,这些文件是增量加载。实体的每个增量加载都有一个类似于Entity_YYYYMMDDHHMMSS.txt(甚至可能比这更多的信息)的文件名,而不仅仅是Entity.txt。文件名中的时间戳是增量切片的末尾(数据中可能的最大插入或更新时间),而不仅仅是当前时间(有时它们相对相同,这并不重要,但我倾向于为我的批处理中的所有表获取一致的增量切片结束时间)。您可以通过parameterizing the folder and file in the dataset获取文件名中的日期文件夹和时间戳。 。
Melissa Coates 有两篇关于 Azure Data Lake 的好文章:Zones in a Data Lake和 Data Lake Use Cases and Planning 。她的命名约定与我的有点不同,但我们都会告诉你要保持一致。我首先会将增量加载文件放入原始文件中。它应该反射(reflect)从源加载的增量数据。如果您需要一个合并版本,可以使用数据工厂或 U-SQL(或您选择的工具)来完成,并放置在标准化原始区域中。有一些performance issues对于数据湖中的小文件,因此整合可能会很好,但这完全取决于您计划在将数据放在那里后如何处理数据。大多数用户不会访问 RAW 区域中的数据,而是使用标准化原始区域或策划区域中的数据。另外,我希望 Raw 成为一个不可变的存档,我可以从中重新生成其他区域中的数据,因此我倾向于将其保留在文件中。但如果你发现你需要在那里巩固,那就没问题了。
更改跟踪是获取更改的可靠方法,但我不喜欢他们 example 中的命名约定/文件组织。 。我会确保您的文件名上有实体名称和时间戳。他们有增量 - [PipelineRunID]。我更喜欢 [Entity]_[YYYYMMDDHHMMSS]_[TriggerID].txt
(或保留运行 ID),因为它对其他人来说信息更丰富。我还倾向于使用触发器 ID 而不是管道 RunID。触发器 ID 跨在该触发器实例(批处理)中执行的所有包,而管道 RunID 特定于该管道。
如果您无法进行更改跟踪,则水印没问题。我通常无法向我的源添加更改跟踪,并且必须使用水印。问题在于您相信应用程序的修改日期是准确的。是否存在更新行而修改日期未更改的情况?插入行时,修改日期是否也会更新,或者您是否必须检查两列才能获取所有新行和更改的行?当我们无法使用变更跟踪时,这些是我们必须考虑的事情。
总结:
关于使用文件分区的 Azure Data Lake 增量加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53273550/
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
我已经完成了注册页面,并且运行顺利。 现在我需要弄清楚登录部分。我想要它,所以一旦用户登录,它就会将他们带到私有(private)页面,只有登录的用户才能看到。 它不需要针对每个用户进行个性化设置,只
出于个人好奇心,我目前正在学习区 block 链的工作原理。我正在学习这门类(class),现在我已经使用网络套接字设置了点对点连接。区 block 链应用程序的多个实例现在可以使用这些套接字运行并相
我读过: The blockchain database isn’t stored in any single location, meaning the records it keeps are t
Closed. This question needs to be more focused。它当前不接受答案。 想要改善这个问题吗?更新问题,使它仅关注editing this post的一个问题。
如果我在区块链中进行交易,是否只有在将交易添加到区块链后才会进行比特币转账?如果是这样,挖掘区块可能需要时间,并且无法进行紧急付款。那么这不是区块链的劣势吗? 最佳答案 如果您不重视能够在没有第三方(
Closed. This question needs to be more focused。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题
根据我的理解,我读到的关于区 block 链的所有内容都表明,即使在私有(private)区 block 链上,每个参与者都可以查看所有交易。我看到它提到区 block 链的一个用例可能是共享医疗数据
服务器正在发送消息时,如何阻止连接到服务器的一个IP地址。我的发送消息选项程序如下所示。 private void buttonSendMsg_Click(对象发送者,EventArgs e) {
iam正在hadoop apache 2.7.1上工作 和iam添加大小不超过100 Kb的文件 所以如果我将块大小配置为1 mb或默认值是 128兆字节 不会影响我的文件,因为它们只会保存在一个块中
我有一个docker-compose文件here。我可以连接到7051并注册我的chaincode客户端,但是当我尝试连接到localhost:7050时,我得到一个错误,该错误在使用curl测试时如
从数据类型来看,区 block 链是单链表吗?因为每个 block 都使用哈希引用前一个 block 。 或者它是某种树? 最佳答案 区 block 链表示为单链表的方式。每个 block 都有前一个
我无法理解给定代码片段的 hashcode() 部分。 我尝试过搜索它,但我无法弄清楚。 this.hash = Arrays.hashCode(new Integer[]{data.has
已关闭。这个问题是 not about programming or software development 。目前不接受答案。 这个问题似乎不是关于 a specific programming
我正在通过一些在线示例学习区 block 链。我有这个高级代码,我用以前的哈希创建一个新 block ,然后向它添加一个事务,然后生成 block 的困难哈希(有 8 个前导零) Block blo
我们有一个包含一些数字商品的网站。从那里购买的用户需要用 BTC 购买一些信用。在他购买信用卡后,脚本必须将他用 BTC 购买的货币 (USD) 数量加载到他的账户中。 所以这里我们有 HTML 表单
我目前正在使用 enumerateObjectsUsingBlock block 在 subview 下进行枚举,我怎样才能确定 block 的完成? 下面是区 block 内容 [self.view
我通常将显示 block 放在链接上,以使按钮的所有 div 都处于事件状态,而不仅仅是文本。但在这种情况下,我需要在 ul li 中使用 display:inline-block 我认为这会禁用其他
我正在尝试创建付款账单并通过电报机器人发送给我的客户:我正在使用区 block 链 API V2-https://blockchain.info/api/api 接收。我的代码是: xpub='***
有个面试题:区 block 链和不可变链表有什么区别? 我回答他们是相同的技术,然后没有通过测试。请纠正我的错误。 最佳答案 链表中的每一项通常通过指针或内存地址指向链表中的下一项。 区 block
我是一名优秀的程序员,十分优秀!