gpt4 book ai didi

hadoop - 如何将一行与 spark 数据集中的所有其他行进行比较?

转载 作者:可可西里 更新时间:2023-11-01 15:56:25 26 4
gpt4 key购买 nike

我有一个从 MySQL 加载的 spark 数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么办法可以实现吗?

最佳答案

您可能想通过匹配行的字段来连接两个数据集。你可以像这样匹配两个数据集并加入这两个数据集

val Result = DF1.join(DF2, (DF1("USER_ID") === DF2("USER_ID")) &&(DF1("SESSION_ID") === DF2("SESSION_ID")) &&(DF1 ("日期") === DF2("日期")) ).select(DF1("USER_ID"),DF1("SESSION_ID"),DF1("DATE"),DF2("COUNTRY"))

关于hadoop - 如何将一行与 spark 数据集中的所有其他行进行比较?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43066580/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com