gpt4 book ai didi

python - "Correlation matrix"对于字符串。名义数据的相似度

转载 作者:行者123 更新时间:2023-12-01 01:16:44 24 4
gpt4 key购买 nike

这是我的数据框。 df

  store_1      store_2         store_3         store_4     

0 banana banana plum banana
1 orange tangerine pear orange
2 apple pear melon apple
3 pear raspberry pineapple plum
4 plum tomato peach tomato

我正在寻找计算商店中同时出现的次数的方法(以比较它们的相似度)。

最佳答案

你可以尝试这样的事情

import itertools as it
corr = lambda a,b: len(set(a).intersection(set(b)))/len(a)
c = [corr(*x) for x in it.combinations_with_replacement(df.T.values.tolist(),2)]

j = 0
x = []
for i in range(4, 0, -1): # replace 4 with df.shape[-1]
x.append([np.nan]*(4-i) + c[j:j+i])
j+= i
pd.DataFrame(x, columns=df.columns, index=df.columns)

哪个产量

        store_1 store_2 store_3 store_4
store_1 1.0 0.4 0.4 0.8
store_2 NaN 1.0 0.2 0.4
store_3 NaN NaN 1.0 0.2
store_4 NaN NaN NaN 1.0

关于python - "Correlation matrix"对于字符串。名义数据的相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54279080/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com