gpt4 book ai didi

python - 什么是对相似词进行分组的好策略?

转载 作者:IT王子 更新时间:2023-10-29 05:55:40 24 4
gpt4 key购买 nike

假设我有一个包含拼写错误和小变体的电影名称列表 -

 "Pirates of the Caribbean: The Curse of the Black Pearl"
"Pirates of the carribean"
"Pirates of the Caribbean: Dead Man's Chest"
"Pirates of the Caribbean trilogy"
"Pirates of the Caribbean"
"Pirates Of The Carribean"

如何分组或查找此类单词集,最好使用 python 和/或 redis?

最佳答案

看看“模糊匹配”。以下线程中的一些很棒的工具可以计算字符串之间的相似性。

我特别喜欢 difflib模块

>>> get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])
['apple', 'ape']
>>> import keyword
>>> get_close_matches('wheel', keyword.kwlist)
['while']
>>> get_close_matches('apple', keyword.kwlist)
[]
>>> get_close_matches('accept', keyword.kwlist)
['except']

https://stackoverflow.com/questions/682367/good-python-modules-for-fuzzy-string-comparison

关于python - 什么是对相似词进行分组的好策略?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6579263/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com