gpt4 book ai didi

azure - 如何将多个 csv 文件提取到 Spark 数据帧中?

转载 作者:行者123 更新时间:2023-12-03 06:44:33 25 4
gpt4 key购买 nike

我正在尝试将 2 个 csv 文件提取到单个 Spark 数据框中。但是,这两个数据集的架构非常不同,当我执行以下操作时,我只返回第二个 csv 的架构,就好像第一个数据集不存在一样。我该如何解决这个问题?我的最终目标是计算总字数。

路径 = ["abfss://lmne.dfs.core.windows.net/csvs/MachineLearning_reddit.csv", "abfss://[email protected]/csvs/bbc_news.csv"]

df0_spark=spark.read.format("csv").option("header","false").load(paths)
df0_spark.write.mode("overwrite").saveAsTable("ML_reddit2")
df0_spark.show()

我尝试将这两个文件加载到单个 Spark 数据帧中,但它只返回其中一个表。

最佳答案

我复制了上面的内容并得到了下面的结果。

例如,我在 dbfs 中有两个具有不同架构的 csv 文件。当我执行上面的代码时,我得到了相同的结果。

enter image description here

要获取所需的架构,请在读取文件时启用 mergeSchemaheader

代码:

df0_spark=spark.read.format("csv").option("mergeSchema","true").option("header","true").load(paths)
df0_spark.show()

enter image description here

如果您想组合两个不带空值的文件,我们应该有一个公共(public)标识列,并且必须单独读取文件并使用内部联接。

关于azure - 如何将多个 csv 文件提取到 Spark 数据帧中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74229119/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com