gpt4 book ai didi

python - 计算 Pandas 数据帧中联合的交集(Jaccard 索引)

转载 作者:行者123 更新时间:2023-12-03 13:59:26 25 4
gpt4 key购买 nike

我有一个数据框,如:

animal    ids
cat 1,3,4
dog 1,2,4
hamster 5
dolphin 3,5
数据框非常大,有超过 8 万行,而 ids 列可能很容易包含超过数千甚至 1 万个逗号分隔的 id。给定行中的 ID 在逗号分隔的字符串中是唯一的。
我想构建一个计算 Jaccard 索引的数据框,即动物列中的每个项目与 ids 列中的每个项目在联合上的交集。
因此,如果我们查看 cat 和 dog,联合为 2(ids 1 和 4),联合为 4(ids 1、2、3、4),因此 Jaccard 的索引为 2/4 = 0.5。拥有这种格式的数据集会很棒:
            cat        dog        hamster    dolphin
cat 1 0.5 0 0.25
dog 0.5 1 0 0
hamster 0 0 1 0.5
dolphin 0.25 0 0.5 1
这意味着使用行索引作为动物的名称,以便我可以快速找到相关的 jaccard 索引,例如:
cat_dog_ji = df_new['cat']['dog']

最佳答案

您可以使用 str.get_dummies和一些 scipy工具在这里。

from scipy.spatial import distance

u = df["ids"].str.get_dummies(",")
j = distance.pdist(u, "jaccard")
k = df["animal"].to_numpy()
pd.DataFrame(1 - distance.squareform(j), index=k, columns=k)
          cat  dog  hamster  dolphin
cat 1.00 0.5 0.0 0.25
dog 0.50 1.0 0.0 0.00
hamster 0.00 0.0 1.0 0.50
dolphin 0.25 0.0 0.5 1.00

关于python - 计算 Pandas 数据帧中联合的交集(Jaccard 索引),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63535547/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com