gpt4 book ai didi

apache-spark - Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式

转载 作者:行者123 更新时间:2023-12-03 16:32:01 26 4
gpt4 key购买 nike

我正在将事实表和维度表从 SQL Server 导入到 Azure Data Lake Gen 2。
如果我要整理表格以创建对在 Azure Databricks 上运行 ML 模型有用的数据集,我应该将数据保存为“Parquet”还是“Delta”?
存储为 parquet 和 delta 有什么区别?

最佳答案

Delta 将数据存储为 Parquet ,只是在其上增加了一层具有高级功能的附加层,提供事件历史记录(事务日志)以及更灵活地更改内容,例如更新、删除和合并功能。此链接 delta很好地解释了文件的组织方式。
一个缺点是它可能会在大量更新时变得非常碎片化,这可能对性能有害。由于 AZ Data Lake Store Gen2 无论如何都没有针对大型 IO 进行优化,这并不是一个大问题。虽然对 Parquet 格式进行了一些优化,但这种方式不会很有效。
我会使用delta,只是为了高级功能。如果存在数据随时间更新而不仅仅是追加的情况,这将非常方便。特别好的功能,您可以在它们存在的给定时间点读取增量表。
SQL as of syntax
这对于拥有一致的训练集非常有用(始终具有相同的训练数据集,而无需分离到单独的 Parquet 文件)。如果 ML 模型将 delta 格式作为输入处理可能会出现问题,因为可能只有少数框架能够直接读取它,因此您需要在某些预处理步骤中对其进行转换。

关于apache-spark - Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65320949/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com