gpt4 book ai didi

python - Pandas :如何根据不同列的值对列元素的组合进行分组以指示共现?

转载 作者:太空宇宙 更新时间:2023-11-03 15:48:08 27 4
gpt4 key购买 nike

我有一个 df 形式的 Pandas 数据框,

Batch_ID    Product_ID
1 A
1 B
1 C
2 B
2 B
2 C
2 C
3 B
3 B
3 C
4 C
4 D
5 D

我想从中得到一个边缘列表,本质上是一个新的数据框edge_list_df(我无法将其转换为 networkx 对象),

Source       Target         Weight
A B 1.0
A C 1.0
A D 0.0
B C 3.0
B D 0.0
C D 1.0

请注意,我在示例中给出了许多不同的可能性,以确保我的问题很清楚。例如,即使对于 Batch_ID=2,B-C 组合出现两次,计数器也不会增加两倍。

实现此目标的最有效方法是什么?

最佳答案

这是我的看法:

from itertools import combinations

def combine(batch):
"""Combine all products within one batch into pairs"""
return pd.Series(list(combinations(set(batch), 2)))

edges = df.groupby('Batch_ID')['Product_ID'].apply(combine).value_counts()
edges
#(B, C) 3
#(A, B) 1
#(A, C) 1
#(D, C) 1

我知道真正需要出现次数为 0 的边。

如果需要,您可以将索引进一步拆分为源和目标:

edges = edges.reset_index()
edges = pd.concat([edges, edges['index'].apply(pd.Series)], axis=1)
edges.drop(['index'], axis=1, inplace=True)
edges.columns = 'Weight','Source','Target'
# Weight Source Target
#0 3 B C
#1 1 A B
#2 1 A C
#3 1 D C

或者:

c = ['Source', 'Target']
L = edges.index.values.tolist()
edges = pd.DataFrame(L, columns=c).join(edges.reset_index(drop=True))

关于python - Pandas :如何根据不同列的值对列元素的组合进行分组以指示共现?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48736080/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com