gpt4 book ai didi

machine-learning - 如何使用机器学习让两个相似输入的单词表示相同的意思?

转载 作者:行者123 更新时间:2023-11-30 09:35:19 25 4
gpt4 key购买 nike

例如,我有三个单词“New York”、“new york”和“new-york”。使用机器学习或任何其他字符串操作算法,我能否知道这三个词指的是同一事物?

我想这个问题一定已经在某个地方得到了答案,但我真的不知道如何寻找它。所以,如果我发送垃圾邮件,我很抱歉。

最佳答案

  1. 将字符串标准化,小写,去掉特殊字符,得到签名字符串。例如

    纽约 --> 纽约纽约 --> 纽约纽约 --> 纽约

  2. 首先比较签名是否完全匹配。

  3. 然后使用 levenstein 或 jaro wrinkler 等模糊匹配算法来比较签名。

    纽约 <--> 纽约 --> 90% 匹配

  4. 大多数编程语言都有可用于 3 的模块,例如 python 中的 difflib。

您可以使用给定的 python 实用方法 here

>>> from helpers import find_string_similarity
>>> find_string_similarity('new york','New-York',normalized=True)
1.0
>>> find_string_similarity('new yArk','New-York',normalized=True)
0.8999999999999999

您也可以直接使用 difflib

关于machine-learning - 如何使用机器学习让两个相似输入的单词表示相同的意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44669160/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com