gpt4 book ai didi

python - Pandas-创建差异矩阵的数量

转载 作者:行者123 更新时间:2023-12-04 09:25:54 26 4
gpt4 key购买 nike

我有一个这样的数据框

    L1  L2  L3  L4  L5
A 1 2 3 4 5
B 1 2 4 3 5
C 1 3 3 2 1
我想计算行之间的差异数,例如A和B之间的差异数是2,A和C是3,B和C是4。
我真正想要的是一个差分矩阵,例如
    A   B   C
A 0 2 3
B 2 0 4
C 3 4 0

最佳答案

第一个循环解决方案是每行迭代,通过 DataFrame 和 sum 进行比较:

df = df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)
print (df)
A B C
A 0 2 3
B 2 0 4
C 3 4 0
或者为了提高性能,将 numpy 中的值与 3d 数组的广播进行比较,使用数据帧构造函数 sum 和 last:
a = df.to_numpy()
out = pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)
print (out)
A B C
A 0 2 3
B 2 0 4
C 3 4 0
np.random.seed(123)
df = pd.DataFrame( np.random.randint(20, size=(100, 500)))
print (df)


In [119]: %%timeit
...: df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)
...:
...:
12.8 s ± 1.02 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [120]: %%timeit
...: a = df.to_numpy()
...: pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)
...:
...:
14.6 ms ± 325 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


关于python - Pandas-创建差异矩阵的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63010834/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com