gpt4 book ai didi

apache-spark - Apache Spark + Delta Lake 概念

转载 作者:行者123 更新时间:2023-12-04 08:01:45 25 4
gpt4 key购买 nike

我对 Spark + Delta 有很多疑问。
enter image description here

1)Databricks 提出了 3 层(青铜、白银、黄金),但是推荐在哪一层用于机器学习,为什么?我想他们建议在黄金层中清理并准备好数据。

2) 如果我们 摘要 这 3 层的概念,我们可以认为青铜层是数据湖,白银层是数据库,黄金层是数据仓库吗?我的意思是在功能方面,.

3) Delta 架构是商业术语,还是 Kappa 架构的演变,还是 Lambda 和 Kappa 架构的新趋势架构? (Delta + Lambda 架构)与 Kappa 架构之间有什么区别?

4) 在许多情况下,Delta + Spark 的规模比大多数数据库要大得多,而且通常要便宜得多,如果我们调整得当,我们可以获得快 2 倍的查询结果。我知道将实际趋势数据仓库与 Feature/Agg 数据存储进行比较非常复杂,但我想知道如何进行这种比较?

5)我曾经使用 Kafka、Kinesis 或 Event Hub 进行流式处理,我的问题是如果我们用 Delta Lake 表替换这些工具会发生什么样的问题(我已经知道一切都取决于很多事情,但我希望对此有一个大致的了解)。

最佳答案

1) 由您的数据科学家决定。他们应该对在白银和黄金地区工作感到自在,一些更高级的数据科学家将希望返回原始数据并解析可能未包含在白银/黄金表中的其他信息。

2) 青铜级 = 原生格式/三角湖格式的原始数据。 Silver = delta Lake 中经过 sanitizer 和清洁的数据。 Gold = 通过 delta Lake 访问或推送到数据仓库的数据,具体取决于业务需求。

3) Delta 架构是 lambda 架构的简单版本。 Delta 架构目前是一个商业术语,我们将看看 future 是否会发生变化。

4) Delta Lake + Spark 是最具扩展性的数据存储机制,价格合理。欢迎您根据业务需求测试性能。 Delta Lake 的存储成本将远低于任何数据仓库。您对数据访问和延迟的要求将是一个更大的问题。

5) Kafka、Kinesis 或 Eventhub 是从边缘获取数据到数据湖的来源。 Delta Lake 可以充当流应用程序的源和汇。使用 delta 作为源实际上很少有问题。 delta 湖源依赖于 blob 存储,因此我们实际上解决了基础设施问题的许多问题,但添加了 blob 存储的一致性问题。 Delta Lake 作为流式作业的来源比 kafka/kinesis/event hub 更具可扩展性,但您仍然需要这些工具将数据从边缘获取到 delta Lake。

关于apache-spark - Apache Spark + Delta Lake 概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56211236/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com