gpt4 book ai didi

python - 基于列表列加入两个 Pandas 数据框

转载 作者:行者123 更新时间:2023-12-04 08:09:19 27 4
gpt4 key购买 nike

我有 2 个数据帧 包含列表列。
我想加入他们基于 2+ 共享值 在名单上。例子:

ColumnA ColumnB        | ColumnA ColumnB        
id1 ['a','b','c'] | id3 ['a','b','c','x','y', 'z']
id2 ['a','d,'e'] |
在这种情况下,我们可以看到 id1 匹配 id3 因为列表中有 2 个以上的共享值。所以输出将是(列名并不重要,只是例如):
    ColumnA1 ColumnB1     ColumnA2   ColumnB2        
id1 ['a','b','c'] id3 ['a','b','c','x','y', 'z']

我怎样才能达到这个结果?我试图迭代数据帧 #1 中的每一行,但这似乎不是一个好主意。
谢谢!

最佳答案

如果您正在使用 Pandas 1.2.0 或更新版本 (2020年12月26日发布),笛卡尔积(交叉关节)可以简化为:

    df = df1.merge(df2, how='cross')         # simplified cross joint for pandas >= 1.2.0
另外, 如果系统性能(执行时间)是一个问题 对您来说,建议使用 list(map... 而不是较慢的 apply(... axis=1)使用 apply(... axis=1) :
%%timeit
df['overlap'] = df.apply(lambda x:
len(set(x['ColumnB1']).intersection(
set(x['ColumnB2']))), axis=1)


800 µs ± 59.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
使用时 list(map(... :
%%timeit
df['overlap'] = list(map(lambda x, y: len(set(x).intersection(set(y))), df['ColumnB1'], df['ColumnB2']))

217 µs ± 25.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
请注意 使用 list(map...快了 3 倍!
整套代码供您引用:
    data = {'ColumnA1': ['id1', 'id2'], 'ColumnB1': [['a', 'b', 'c'], ['a', 'd', 'e']]}
df1 = pd.DataFrame(data)

data = {'ColumnA2': ['id3', 'id4'], 'ColumnB2': [['a','b','c','x','y', 'z'], ['d','e','f','p','q', 'r']]}
df2 = pd.DataFrame(data)

df = df1.merge(df2, how='cross') # for pandas version >= 1.2.0

df['overlap'] = list(map(lambda x, y: len(set(x).intersection(set(y))), df['ColumnB1'], df['ColumnB2']))

df = df[df['overlap'] >= 2]
print (df)

关于python - 基于列表列加入两个 Pandas 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66060591/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com