gpt4 book ai didi

python - 在 Python 中计算 Jaccard 相似度

转载 作者:太空狗 更新时间:2023-10-29 21:42:01 30 4
gpt4 key购买 nike

我有 20,000 个文档要为其计算真正的 Jaccard 相似度,以便我稍后可以检查 MinWise 哈希对其进行近似的准确度。

每个文档都表示为 numpy 矩阵中的一列,其中每一行都是一个出现在文档中 (entry=1) 或不出现 (entry=0) 的词。大约有 600 个单词(行)。

例如,第 1 列将是 [1 0 0 0 0 0 1 0 0 0 1 0],这意味着单词 1、7、11 出现在其中,没有其他单词出现。

除了我的逐元素比较方法之外,还有更有效的方法来计算相似度吗?我看不出如何使用集合来提高速度,因为集合刚刚变为 (0,1),但就目前而言,代码慢得不可思议。

import numpy as np

#load file into python
rawdata = np.loadtxt("myfile.csv",delimiter="\t")
#Convert the documents from rows to columns
rawdata = np.transpose(rawdata)
#compute true jacard similarity
ndocs = rawdata.shape[1]
nwords = rawdata.shape[0]
tru_sim = np.zeros((ndocs,ndocs))

#computes jaccard similarity of 2 documents
def jaccard(c1, c2):
n11 = sum((c1==1)&(c2==1))
n00 = sum((c1==0)&(c2==0))
jac = n11 / (nfeats-n00)
return (jac)

for i in range(0,ndocs):
tru_sim[i,i]=1
for j in range(i+1,ndocs):
tru_sim[i,j] = jaccard(rawdata[:,i],rawdata[:,j])

最佳答案

这是一个向量化的方法-

# Get the row, col indices that are to be set in output array        
r,c = np.tril_indices(ndocs,-1)

# Use those indicees to slice out respective columns
p1 = rawdata[:,c]
p2 = rawdata[:,r]

# Perform n11 and n00 vectorized computations across all indexed columns
n11v = ((p1==1) & (p2==1)).sum(0)
n00v = ((p1==0) & (p2==0)).sum(0)

# Finally, setup output array and set final division computations
out = np.eye(ndocs)
out[c,r] = n11v / (nfeats-n00v)

np.einsum 计算n11vn00v 的替代方法| -

n11v = np.einsum('ij,ij->j',(p1==1),(p2==1).astype(int))
n00v = np.einsum('ij,ij->j',(p1==0),(p2==0).astype(int))

如果 rawdata 仅由 0s1 组成,获取它们的更简单方法是 -

n11v = np.einsum('ij,ij->j',p1,p2)
n00v = np.einsum('ij,ij->j',1-p1,1-p2)

基准测试

函数定义-

def original_app(rawdata, ndocs, nfeats):
tru_sim = np.zeros((ndocs,ndocs))
for i in range(0,ndocs):
tru_sim[i,i]=1
for j in range(i+1,ndocs):
tru_sim[i,j] = jaccard(rawdata[:,i],rawdata[:,j])
return tru_sim

def vectorized_app(rawdata, ndocs, nfeats):
r,c = np.tril_indices(ndocs,-1)
p1 = rawdata[:,c]
p2 = rawdata[:,r]
n11v = ((p1==1) & (p2==1)).sum(0)
n00v = ((p1==0) & (p2==0)).sum(0)
out = np.eye(ndocs)
out[c,r] = n11v / (nfeats-n00v)
return out

验证和计时 -

In [6]: # Setup inputs
...: rawdata = (np.random.rand(20,10000)>0.2).astype(int)
...: rawdata = np.transpose(rawdata)
...: ndocs = rawdata.shape[1]
...: nwords = rawdata.shape[0]
...: nfeats = 5
...:

In [7]: # Verify results
...: out1 = original_app(rawdata, ndocs, nfeats)
...: out2 = vectorized_app(rawdata, ndocs, nfeats)
...: print np.allclose(out1,out2)
...:
True

In [8]: %timeit original_app(rawdata, ndocs, nfeats)
1 loops, best of 3: 8.72 s per loop

In [9]: %timeit vectorized_app(rawdata, ndocs, nfeats)
10 loops, best of 3: 27.6 ms per loop

那里有一些神奇的 300x+ 加速!

那么,为什么它这么快?嗯,这涉及很多因素,最重要的一个因素是 NumPy 数组是为提高性能而构建的,并针对矢量化计算进行了优化。通过提议的方法,我们很好地利用了它,因此看到了这样的加速。

这是一个related Q&A详细讨论了这些性能标准。

关于python - 在 Python 中计算 Jaccard 相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40579415/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com