gpt4 book ai didi

python - 使用 pdist 在 Python 中使用字符串距离矩阵

转载 作者:太空狗 更新时间:2023-10-30 01:50:09 24 4
gpt4 key购买 nike

如何在 Python 中计算字符串的 Jaro Winkler 距离矩阵?

我有大量手写字符串(名称和记录编号),我试图在列表中查找重复项,包括拼写可能略有不同的重复项。 response to a similar question建议使用带有自定义距离函数的 Scipy 的 pdist 函数。我尝试使用 Levenshtein 包中的 jaro_winkler 函数来实现此解决方案。问题在于 jaro_winkler 函数需要字符串输入,而 pdict 函数似乎需要二维数组输入。

例子:

import numpy as np
from scipy.spatial.distance import pdist
from Levenshtein import jaro_winkler

fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1)
dm = pdist(fname, jaro_winkler)
dm = squareform(dm)

预期输出 - 像这样:

          Bob  Carl   Kristen  Calr  Doug
Bob 1.0 - - - -
Carl 0.0 1.0 - - -
Kristen 0.0 0.46 1.0 - -
Calr 0.0 0.93 0.46 1.0 -
Doug 0.53 0.0 0.0 0.0 1.0

实际错误:

jaro_winkler expected two Strings or two Unicodes

我假设这是因为 jaro_winkler 函数看到的是 ndarray 而不是字符串,我不确定如何在 pdist 函数的上下文中将函数输入转换为字符串。

有没有人建议允许这个工作?提前致谢!

最佳答案

你需要包装距离函数,就像我在下面的例子中用 Levensthein 距离演示的那样

import numpy as np    
from Levenshtein import distance
from scipy.spatial.distance import pdist, squareform

# my list of strings
strings = ["hello","hallo","choco"]

# prepare 2 dimensional array M x N (M entries (3) with N dimensions (1))
transformed_strings = np.array(strings).reshape(-1,1)

# calculate condensed distance matrix by wrapping the Levenshtein distance function
distance_matrix = pdist(transformed_strings,lambda x,y: distance(x[0],y[0]))

# get square matrix
print(squareform(distance_matrix))

Output:
array([[ 0., 1., 4.],
[ 1., 0., 4.],
[ 4., 4., 0.]])

关于python - 使用 pdist 在 Python 中使用字符串距离矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46452724/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com