gpt4 book ai didi

mysql - n 个字符串之间的字符串相似度度量

转载 作者:行者123 更新时间:2023-11-30 22:03:08 25 4
gpt4 key购买 nike

我有一个包含大约 1000 万个出版物标题的 mysql 数据库。现在当我想添加一个新标题时,标题可能已经存在,但写法略有不同。一个例子:

Overview on 𝔹+-Trees....
Overview on B-Tree .....
Overview on $({\rm B}^+)$-Trees....

所有 3 个标题都是不同的,如果我试图完全匹配它们,但它们指的是同一出版物。

现在我可以使用像 levenshtein 这样的东西来计算相似度。但是对于超过 1000 万个标题,计算每个距离可能需要很长时间。

现在我在想的是,是否有某种指标可以作为预先计算应用于所有字符串。例如计算字数,以便我只收集具有相似字长的标题。目标是将编辑比较的数量从 1000 万减少到 100.000 或更少。

最佳答案

您可以在 mysql 中使用 BINARY 搜索提取字符串。它将给出是否完全匹配的结果

 select * from table where BINARY column_name = "matching_value";

关于mysql - n 个字符串之间的字符串相似度度量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42736950/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com