gpt4 book ai didi

pyspark - 基于另一个数据帧 Pyspark 1.6.1 中匹配值的子集数据帧

转载 作者:行者123 更新时间:2023-12-02 01:14:57 26 4
gpt4 key购买 nike

我有两个数据框。第一个数据框仅包含一列 business_contact_nr,这是一组客户编号。

| business_contact_nr |
34567
45678

第二个数据框包含多个列,bc 包含客户编号,其他列包含有关这些客户的信息。

| bc     | gender  | savings | month |
34567 1 100 200512
34567 1 200 200601
45678 0 500 200512
45678 0 500 200601
01234 1 60 200512
01234 1 150 200601

我想做的是根据第二个数据帧中的客户端数量是否与第一个数据帧中的客户端数量匹配来对第二个数据帧进行子集化。

因此,所有不在第一个数据帧中的客户号码都应该被删除,在这种情况下,所有 bc = 01234 的行。

我正在使用 Pyspark 1.6.1。关于如何执行此操作的任何想法?

最佳答案

这可以通过join来解决。假设 df1 是您的第一个数据帧,df2 是您的第二个数据帧。然后你可以先重命名df1.business_contact_nrjoin:

df1 = df1.withColumnRenamed('business_contact_nr', 'bc')
df2subset = df2.join(df1, on='bc')

关于pyspark - 基于另一个数据帧 Pyspark 1.6.1 中匹配值的子集数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43095208/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com