gpt4 book ai didi

json - 使用分区 JSON 进行 Spark 分区投影/下推和模式推断

转载 作者:行者123 更新时间:2023-12-03 22:28:58 25 4
gpt4 key购买 nike

我想读取 JSON 格式的分区数据子集,使用 spark (3.0.1) 从 JSON 推断模式。
我的数据被划分为 s3a://bucket/path/type=[something]/dt=2020-01-01/当我尝试使用 read(json_root_path).where($"type" == x && $"dt" >= y && $"dt" <= z) 阅读此内容时, spark 尝试读取整个数据集以推断模式。
当我尝试提前找出我的分区路径并使用 read(paths :_*) 传递它们时,spark 抛出一个错误,它无法推断架构,我需要手动指定架构。 (请注意,在这种情况下,除非我指定 basePath ,否则 spark 也会丢失 typedt 的列,但这很好,我可以忍受。)
我认为,我正在寻找的是一些选项,它告诉 spark 要么仅从相关分区推断架构,因此分区被下推,要么告诉它它可以仅从 JSON 中推断架构我给它的路径。请注意,我没有调用 mcsk 的选项。或 glue维护一个配置单元元存储。此外,模式会随着时间而变化,因此无法提前指定——利用 Spark JSON 模式推断是一个明确的目标。
任何人都可以帮忙吗?

最佳答案

您能否每天阅读您对使用模式推断感兴趣的内容,然后使用如下模式合并代码来合并数据帧:
Spark - Merge / Union DataFrame with Different Schema (column names and sequence) to a DataFrame with Master common schema

关于json - 使用分区 JSON 进行 Spark 分区投影/下推和模式推断,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65910394/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com