gpt4 book ai didi

python - 高效使用python计算汉明距离

转载 作者:太空狗 更新时间:2023-10-29 23:58:59 25 4
gpt4 key购买 nike

<分区>

我需要比较大量类似于 50358c591cef4d76 的字符串。我有一个可以使用的汉明距离函数(使用 pHash)。我如何有效地做到这一点?我的伪代码是:

For each string
currentstring= string
For each string other than currentstring
Calculate Hamming distance

我想将结果输出为矩阵并能够检索值。我还想通过 Hadoop Streaming 运行它!

如有任何指点,我们将不胜感激。

这是我试过的但是速度很慢:

import glob
path = lotsdir + '*.*'
files = glob.glob(path)
files.sort()
setOfFiles = set(files)
print len(setOfFiles)
i=0
j=0
for fname in files:
print 'fname',fname, 'setOfFiles', len(setOfFiles)
oneLessSetOfFiles=setOfFiles
oneLessSetOfFiles.remove(fname)
i+=1

for compareFile in oneLessSetOfFiles:
j+=1
hash1 = pHash.imagehash( fname )
hash2 = pHash.imagehash( compareFile)
print ...

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com