gpt4 book ai didi

java - 在 Spark java 中使用 Dataframe 合并两个 parquet 文件

转载 作者:行者123 更新时间:2023-12-02 02:39:54 26 4
gpt4 key购买 nike

我有两个具有相同架构的 Parquet 文件。我想使用 Spark java 中的 Dataframe 将第二个文件与第一个文件合并,而没有任何重复数据。如何做到这一点?

提前致谢。

最佳答案

首先,将两个 Parquet 文件读入数据帧:

Dataset<Row> df1 = spark.read.parquet("dataset1.parquet");
Dataset<Row> df2 = spark.read.parquet("dataset2.parquet");

然后,使用 unionAll (Spark 1.X) 或 union (Spark 2.X) 将第二个 df 与第一个 df 合并。最后,由于此函数将保留重复项,因此请使用 distinct:

Dataset<Row> df_merged = df1.union(df2).distinct();

关于java - 在 Spark java 中使用 Dataframe 合并两个 parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45668860/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com