gpt4 book ai didi

python-3.x - 检查字符串是否是字符串列表中的子字符串的最快方法

转载 作者:行者123 更新时间:2023-12-03 16:25:43 26 4
gpt4 key购买 nike

我有一个包含 4000 个不同名字的静态列表:因此列表的长度很大(4000),但每个字符串大约有 4 到 12 个字符(它们是名称)。

然后,我有一个从数据库中检索到的 10000 个字符串的动态列表:这些字符串可能具有任意长度。

对于 10000 个字符串中的每一个,我需要输出该字符串是否包含 4000 个名称之一,如果包含,是哪个。如果它包含多个名称,我只需要其中一个(即第一个)。此外,不太可能找到这样的名称,因此 10000 个中可能只有 10 个包含名称。

到目前为止我的代码:

names # list of 4000 short static names
fields # list of 10000 retrieved strings

def findit(element):
for name in names:
if name in element:
return name
return None

output = [findit(element) for element in fields]

这当然有效。但是,它完全慢,因为它不太可能找到名称,并且因为我正在测试是否为子字符串而不是相等(即我不能使用二等分或其他基于排序的索引技术)。它几乎无时无刻不在扫描所有姓名列表。所以基本上,它执行大约 10000 x 4000 = 4000 万次“in”比较。

有没有优化这种搜索的算法?

最佳答案

您可以考虑将您的姓名列表转换为一个正则表达式。以这个小小的名字列表为例:

names = ['AARON',
'ABDUL',
'ABE',
'ABEL',
'ABRAHAM',
'ABRAM',
'ADALBERTO',
'ADAM',
'ADAN',
'ADOLFO',
'ADOLPH',
'ADRIAN',
]

这可以用以下正则表达式表示:
\b(?:AARON|ABDUL|ABE|ABEL|ABRAHAM|ABRAM|ADALBERTO|ADAM|ADAN|ADOLFO|ADOLPH|ADRIAN)\b

但这不会很有效率。像树一样构建的正则表达式会更好地工作:

\b(?:A(?:B(?:E(?:|L)|RA(?:M|HAM)|DUL)|D(?:A(?:M|N|LBERTO)|OL(?:FO|PH)|RIAN)|ARON))\b

然后你可以自动生成这个正则表达式——可能首先创建一个 dict -tree 结构,然后将该树转换为正则表达式。对于上面的例子,中间树看起来像这样:
{
'A': {
'A': {
'R': {
'O': {
'N': {
'': {}
}
}
}
},
'B': {
'D': {
'U': {
'L': {
'': {}
}
}
},
'E': {
'': {},
'L': {
'': {}
}
},
... etc

...可以选择简化为:
{
'A': {
'ARON': {
'': {}
}
'B': {
'DUL': {
'': {}
},
'E': {
'': {},
'L': {
'': {}
}
},
'RA': {
'HAM': {
'': {}
},
'M': {
'': {}
}
}
},

... etc

这是执行此操作的建议代码:
import re 

def addToTree(tree, name):
if len(name) == 0:
return
if name[0] in tree.keys():
addToTree(tree[name[0]], name[1:])
else:
for letter in name:
tree[letter] = {}
tree = tree[letter]
tree[''] = {}

# Optional improvement of the tree: it combines several consecutive letters into
# one key if there are no alternatives possible
def simplifyTree(tree):
repeat = True
while repeat:
repeat = False
for key, subtree in list(tree.items()):
if key != '' and len(subtree) == 1 and '' not in subtree.keys():
for letter, subsubtree in subtree.items():
tree[key + letter] = subsubtree
del tree[key]
repeat = True
for key, subtree in tree.items():
if key != '':
simplifyTree(subtree)

def treeToRegExp(tree):
regexp = [re.escape(key) + treeToRegExp(subtree) for key, subtree in tree.items()]
regexp = '|'.join(regexp)
return '' if regexp == '' else '(?:' + regexp + ')'

def listToRegExp(names):
tree = {}
for name in names:
addToTree(tree, name[:])
simplifyTree(tree)
return re.compile(r'\b' + treeToRegExp(tree) + r'\b', re.I)

# Demo
names = ['AARON',
'ABDUL',
'ABE',
'ABEL',
'ABRAHAM',
'ABRAM',
'ADALBERTO',
'ADAM',
'ADAN',
'ADOLFO',
'ADOLPH',
'ADRIAN',
]

fields = [
'This is Aaron speaking',
'Is Abex a name?',
'Where did Abraham get the mustard from?'
]

regexp = listToRegExp(names)
# get the search result for each field, and link it with the index of the field
results = [[i, regexp.search(field)] for i, field in enumerate(fields)]
# remove non-matches from the results
results = [[i, match.group(0)] for [i, match] in results if match]
# print results
print(results)

看到它运行 repl.it

关于python-3.x - 检查字符串是否是字符串列表中的子字符串的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46070965/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com