apache-spark - Apache Spark + Delta Lake 概念-6ren

apache-spark - Apache Spark + Delta Lake 概念

转载作者：行者123 更新时间：2023-12-04 08:01:45

25

4

我对 Spark + Delta 有很多疑问。

1)Databricks 提出了 3 层(青铜、白银、黄金)，但是推荐在哪一层用于机器学习，为什么？我想他们建议在黄金层中清理并准备好数据。

2) 如果我们摘要这 3 层的概念，我们可以认为青铜层是数据湖，白银层是数据库，黄金层是数据仓库吗？我的意思是在功能方面，.

3) Delta 架构是商业术语，还是 Kappa 架构的演变，还是 Lambda 和 Kappa 架构的新趋势架构？ (Delta + Lambda 架构)与 Kappa 架构之间有什么区别？

4) 在许多情况下，Delta + Spark 的规模比大多数数据库要大得多，而且通常要便宜得多，如果我们调整得当，我们可以获得快 2 倍的查询结果。我知道将实际趋势数据仓库与 Feature/Agg 数据存储进行比较非常复杂，但我想知道如何进行这种比较？

5)我曾经使用 Kafka、Kinesis 或 Event Hub 进行流式处理，我的问题是如果我们用 Delta Lake 表替换这些工具会发生什么样的问题(我已经知道一切都取决于很多事情，但我希望对此有一个大致的了解)。

最佳答案

1) 由您的数据科学家决定。他们应该对在白银和黄金地区工作感到自在，一些更高级的数据科学家将希望返回原始数据并解析可能未包含在白银/黄金表中的其他信息。

2) 青铜级 = 原生格式/三角湖格式的原始数据。 Silver = delta Lake 中经过 sanitizer 和清洁的数据。 Gold = 通过 delta Lake 访问或推送到数据仓库的数据，具体取决于业务需求。

3) Delta 架构是 lambda 架构的简单版本。 Delta 架构目前是一个商业术语，我们将看看 future 是否会发生变化。

4) Delta Lake + Spark 是最具扩展性的数据存储机制，价格合理。欢迎您根据业务需求测试性能。 Delta Lake 的存储成本将远低于任何数据仓库。您对数据访问和延迟的要求将是一个更大的问题。

5) Kafka、Kinesis 或 Eventhub 是从边缘获取数据到数据湖的来源。 Delta Lake 可以充当流应用程序的源和汇。使用 delta 作为源实际上很少有问题。 delta 湖源依赖于 blob 存储，因此我们实际上解决了基础设施问题的许多问题，但添加了 blob 存储的一致性问题。 Delta Lake 作为流式作业的来源比 kafka/kinesis/event hub 更具可扩展性，但您仍然需要这些工具将数据从边缘获取到 delta Lake。

关于apache-spark - Apache Spark + Delta Lake 概念，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56211236/

25

4

0

文章推荐： amazon-web-services - AWS ECS 运行需要多个核心的任务

文章推荐： amazon-web-services - AWS : Decrypt SES/KMS encrypted mails

文章推荐： amazon-web-services - AWS : Assinging IAM roles to IAM users

文章推荐： lua - 为什么我的事件处理程序不允许我访问 event.target？

azure-data-lake - Azure Data Lake Analytics 中的内存限制
我已经为 NetCDF 文件实现了一个自定义提取器，并在输出变量之前将变量加载到内存中的数组中。有些数组可能很大，所以我想知道 ADLA 中的内存限制是多少。您是否可以分配最大内存量？最佳答案每个
azure-data-lake - 优化 Azure Data Lake 中的最大并行度
准则是什么，或者我们在哪里可以找到设计系统以实现最佳并行性的准则。我知道数据被拆分到各个节点并为此进行了优化。我在文件中的数据目前包含多个客户、站点、产品和用户。我需要按客户、站点、产品进行聚合，这
azure - 如何从按日期文件夹分区数据的 Azure Data Lake 转换到 Delta Lake
我拥有一个 Azure Data Lake gen2，其数据按日期时间嵌套文件夹进行分区。我想向我的团队提供 Delta Lake 格式，但我不确定是否应该创建一个新的存储帐户并将数据复制为 Del
azure-data-lake - 我可以有任何关于 Azure Data Lake Internals 的书籍吗？
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转才能有效地使用它。我在哪里可以找到描述内部结构的信息: 如何处理 U-SQL 查询并行性是如何工作的如何在 ADL 中
azure-data-lake - 是否有适用于 Azure Data Lake Store 的本地模拟器
在为 Azure 存储帐户开发时，我可以运行 Microsoft Storage Emulator 来在本地保留 Blob、队列和表，而无需在线连接到 Azure。 Azure Data Lake S
azure - "Data Lake Store"的 Azure Data Lake 存储连接字符串是什么
我正在尝试针对 AzureStorageEmulator 为我的 Azure Data Lake Storage (v1) 存储库编写单元测试。这可能吗？如果是这样，创建客户端的参数应该使用什么？另外
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure-data-lake - 是否可以从 Azure Data Lake Analytics 中删除已完成的作业？
我有很多已完成的工作堆积如山，所以我想清理它们。 Should we delete DataLake Analytic Job after completion? 的答案似乎表明可以删除作业，但我不知
azure - 将不同类型的文件从 Gen1 Azur Lake 复制到具有属性的 Azur Gen2 Lake(如上次更新)
我需要将所有数据从 Azur 数据湖 Gen1 迁移到 Lake Gen2。在我的湖中，我们混合了不同类型的文件(.txt、.zip、.json 等)。我们希望将它们按原样移至 GEN2 湖。除此之外
azure-data-lake - 如何在 Azure Data Lake 中安排 U-SQL 查询？
我想每天在 azure 数据湖中执行一个查询。我们可以在 azure 数据湖中安排 U-SQL 查询吗？最佳答案目前，Data Lake Analytics 中没有内置方式来安排 U-SQL 作业
azure-data-lake - 使用 Azure Data Lake Analytics 处理事件中心捕获 AVRO 文件
我正在尝试从事件中心捕获生成的 AVRO 文件中提取数据。在大多数情况下，这可以完美地工作。但是某些文件给我带来了问题。当我运行以下 U-SQL 作业时，出现错误: USE DATABASE Metr
azure - Azure 的 "Data Lake Storage Gen2"和 "Data Lake Gen2"之间有什么区别？
我对在 Azure 上创建存储帐户时可用的选项感到困惑，正在寻求澄清。如果我从 Azure 市场创建新的“存储帐户”(标准层)，系统会在高级设置中激活“Data Lake Storage Gen2”
azure - Azure Data Lake Store 上的公共(public)数据集可与 Data Lake Analytics 一起使用
Azure Data Lake 是否存储公共(public)数据集以与 Azure Data Lake Analytics 一起使用？ Google BigQuery 提供了类似的公共(public)
excel - 如何在 Azure Data Lake、Azure SQL、Azure Data Lake Analytics 和 Azure SQL VM 之间做出决定？
我是 Azure 新手，因此尝试了解何时以及如何使用哪些服务。目前，我有一个 Excel 文件，其中有几个选项卡，需要进行一些转换才能创建一个 Excel 文件选项卡(在源文件本身内 - 比如说选项
delta-lake - 三角洲湖表元数据
Delta Lake 在哪里存储表元数据信息。我在我的独立机器上使用 spark 2.6(不是 Databricks)。我的假设是，如果我重新启动 spark，将删除在 delta lake spar
delta-lake - 内部部署的三角洲湖
是否可以在本地实现三角洲湖？如果是，需要安装什么软件/工具？我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu，apache spark。不确定还需
delta-lake - 如何手动检查增量表？
Delta Lake 每 10 个版本自动创建一个检查点。有没有办法手动创建检查点？最佳答案 import org.apache.spark.sql.delta.DeltaLog DeltaLog.
azure - 如何防止重复条目进入Azure存储的Delta Lake
我有一个以 delta 格式存储到 Adls 中的数据框，现在当我尝试将新的更新行附加到该 delta Lake 时，有什么方法可以删除 delta 中的旧现有记录并添加新记录更新记录。 Delta
hadoop - 从头开始构建Data Lake
我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是，当出现问题时，如何从头开始构建一个问题就没有了。我想了解是否: Data warehouse + Hadoop = D

首页

博学

6Ren·AI

商城

apache-spark - Apache Spark + Delta Lake 概念