gpt4 book ai didi

python - 按几乎相似的字符串分组

转载 作者:太空宇宙 更新时间:2023-11-03 16:03:26 25 4
gpt4 key购买 nike

我有一个包含城市名称和犯罪计数的数据集。数据是脏的,例如“纽约”的城市名称被写为“纽约”、“美国纽约”、“纽约市”、“曼哈顿纽约”等。我如何对所有这些进行分组城市在一起并总结他们的罪行?

我尝试了 python 中的“difflib”包,它匹配字符串并给你一个分数。效果不太好。我还尝试了 python 中的 geocode 包。它对访问 api 的次数有限制,而且效果也不好。有什么建议么?

最佳答案

也许这可能有帮助:

http://chairnerd.seatgeek.com/fuzzywuzzy-fuzzy-string-matching-in-python/

另一种方式:如果字符串包含“new”和“york”,则将其标记为“new york city”。

另一种方法:创建一个包含所有可能出现的模糊单词的字典,并手动标记每个单词。并使用该标签将每个模糊单词替换为标签。

关于python - 按几乎相似的字符串分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40078596/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com