apache-spark - Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式-6ren

apache-spark - Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式

转载作者：行者123 更新时间：2023-12-03 16:32:01

26

4

我正在将事实表和维度表从 SQL Server 导入到 Azure Data Lake Gen 2。
如果我要整理表格以创建对在 Azure Databricks 上运行 ML 模型有用的数据集，我应该将数据保存为“Parquet”还是“Delta”？
存储为 parquet 和 delta 有什么区别？

最佳答案

Delta 将数据存储为 Parquet ，只是在其上增加了一层具有高级功能的附加层，提供事件历史记录(事务日志)以及更灵活地更改内容，例如更新、删除和合并功能。此链接 delta很好地解释了文件的组织方式。
一个缺点是它可能会在大量更新时变得非常碎片化，这可能对性能有害。由于 AZ Data Lake Store Gen2 无论如何都没有针对大型 IO 进行优化，这并不是一个大问题。虽然对 Parquet 格式进行了一些优化，但这种方式不会很有效。
我会使用delta，只是为了高级功能。如果存在数据随时间更新而不仅仅是追加的情况，这将非常方便。特别好的功能，您可以在它们存在的给定时间点读取增量表。
SQL as of syntax
这对于拥有一致的训练集非常有用(始终具有相同的训练数据集，而无需分离到单独的 Parquet 文件)。如果 ML 模型将 delta 格式作为输入处理可能会出现问题，因为可能只有少数框架能够直接读取它，因此您需要在某些预处理步骤中对其进行转换。

关于apache-spark - Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65320949/

26

4

0

文章推荐： c# - 无法在解决方案中创建新的 Prism 项目

文章推荐： Android:LoadStateAdapter 不在 recyclerview 网格布局中居中

文章推荐： python - 跟踪视频中对象的最佳方法是什么？

文章推荐： performance - SOLID 原则可以用于高性能代码吗？

c# - gen 0、gen 1、gen 2 何时准确触发？
第 0 代:所以我读到当 gen 0 超过大小阈值时 gen 0 触发。但我也读到GC不是在"new"时执行的，因为"new"只是向前滑动一个地址。那么，它什么时候检查它是否超过了触发 gen 0 G
java - a "static final"直接分配到哪里？ young gen or old gen 还是 perm gen？
“static final”是直接分配到young gen还是old gen还是perm gen？ (我想它很可能会在我想的时间内落入老一代。)如果它在 perm gen 中分配，那么当在 Perm
python - 如何使用 tornado gen.Task/gen.coroutine 装饰器实现并行
这是一种情况，当必须将并行性引入后端服务器时。我愿意查询 N 个 ELB，每个查询 5 个不同的查询，并将结果发送回 Web 客户端。后端是Tornado，根据我在docs中多次阅读的内容，在过去
haskell - 为什么 `fst (Random.split gen)` 返回的生成器有时会产生与 `gen` 相同的结果？
我正在尝试创建列表的随机排列。我是函数式语言中随机性的新手，还没有完全掌握 monad，但我以我认为应该有效的方式使用了 Random.newStdGen 和 Random.Shuffle.shuff
python - tornado.gen.engine 与 tornado.gen.coroutine 的区别
经过 tornado.gen documentation有人可以帮我理解 tornado.gen.coroutine 和 tornado.gen.engine 之间的确切区别最佳答案正如 gen.
asynchronous - Tornado @web.asynchronous @gen.coroutine VS @gen.coroutine 有什么区别
在 document , 如果方法也用@gen.coroutine 修饰，则不需要@web.asynchronous。像这样 @web.asynchronous @gen.coroutine def
c++ - gen~ phasor() 是做什么的？ (将 Max/MSP gen 转换为 C++)
我们在带有相量的同一个 gen~ 代码框对象中有两个地方: wander = phasor(in8/dense); ...some code later... phas = (triangle(pha
python - 是否可以将 Tornado 的 gen.engine 和 gen.Task 与扭曲一起使用？
我正在从事的项目都是用 Tornado 编写的，但我包含了一些 Twisted 来处理异步 XML-RPC。我想知道您是否可以使用 Tornado 的 gen.engine 和 yield gen.T
protocol-buffers - 如何检查 protoc-gen-go 和 protoc-gen-validate 的版本？
如何查看protoc-gen-go和protoc-gen-validate的版本？ protoc-gen-go --version protoc-gen-validate --version 我试过上
go - protoc-gen-go-rpc : program not found or is not executable - Where do I get protoc-gen-go-rpc?
我们使用的是 protoc-gen-go v2(v2 是 google.golang.org/protobuf，v1 是 github.com/golang/protobuf) 当我们尝试编译 gRP
python - tornado 使用 AsyncHTTPClient 和 gen 请求 url，使用 raise gen.Return 获取异常
刚接触tornado，所以跟着tornado的指导练习，当我开始使用Coroutines的时候，例子是这样说的: 从 Tornado 导入生成 @gen.coroutine def fetch_cor
python-3.x - 使用 next(gen) 和 gen.send(None) 启动 Python 3 生成器有区别吗？
当您创建 Python 3 生成器并立即开始运行它时。您会收到如下错误: TypeError: can't send non-None value to a just-started generato
javascript - 当我在 eclipse 中清理和构建 android 项目时，它会删除 bin 文件夹和 gen 文件夹并重新生成空的 gen 和 bin 文件夹
当我在 eclipse 中清理和构建 android 项目时，它会删除 bin 文件夹和 gen 文件夹的内容，并且不会重新创建它只是创建空文件夹 gen 和 bin 为什么会发生这种情况我搜索了很多
kotlin - 找不到 protoc-gen-grpc-kotlin-1.0.0-windows-x86_64.exe (io.grpc :protoc-gen-grpc-kotlin:1. 0.0)
我想使用来自 protoc-gen-grpc-kotlin 的 protoc-gen-grpc-kotlin-1.0.0我得到了 Execution failed for task ':generat
kotlin - 找不到 protoc-gen-grpc-kotlin-1.0.0-windows-x86_64.exe (io.grpc :protoc-gen-grpc-kotlin:1. 0.0)
我想使用来自 protoc-gen-grpc-kotlin 的 protoc-gen-grpc-kotlin-1.0.0我得到了 Execution failed for task ':generat
clojure gen 类可变参数构造函数
在 :constructors 映射和后续的 -init 定义中，我如何表示可变参数构造函数(假设父类(super class)有多个构造函数，其中一个是可变参数)？最佳答案由于可变参数本质上是对
docker - 无法从Nginx创建文件到docker-gen
我正在使用jwilder/nginx-proxy，以便在我的domain.tld中有一个项目，在api.domain.tld中有一个项目。我关注了this tutorial，自定义default.co
android - java缺少所需的源文件夹: 'gen'
我刚刚重新格式化了我的电脑。我有 windows xp sp3 32 位。我安装java jdk安卓SDK eclipse ide 当我去创建一个新的 android 项目时，我得到了这个错误。项目
android - gen 已存在但不是源文件夹
我正在开发我的 Android 项目，删除未使用的库后，我收到错误: myproject/gen already exists but is not a source folder. Convert
protoc-gen-doc自定义模板规则详解
protoc-gen-doc 自定义模板规则详解配套演示工程此项目中所用 proto 文件位于 ./proto 目录下，来源于官方proto示例此项目中所列所有

首页

博学

6Ren·AI

商城

apache-spark - Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式