gpt4 book ai didi

apache-spark - 在 Spark 数据帧中加载avro时如何合并模式?

转载 作者:行者123 更新时间:2023-12-02 11:22:10 25 4
gpt4 key购买 nike

我正在尝试使用 https://github.com/databricks/spark-avro 读取 avro 文件并且 avro 模式随着时间的推移而演变。我是这样读的,mergeSchema 选项设置为 true希望它会合并架构本身,但它不起作用。

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')

有什么工作?

最佳答案

Spark 中的 avro 文件没有实现合并模式,并且没有简单的解决方法。一种解决方案是将您的 avro 数据逐个文件(或逐个分区)作为单独的数据集读取,然后合并这些数据集。但这可能会非常缓慢。

关于apache-spark - 在 Spark 数据帧中加载avro时如何合并模式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34528026/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com