- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 MySql 中有一张表,里面有名字。我试图在给定输入名称的情况下在表中找到所有相似的名称。我听说过很多关于 Levenshtien/Damerau–Levenshtein 距离的信息,但它似乎不太适用于此,稍后我将解释我的推理。
详细说明:
我质疑在这种情况下使用 Levenshtien/Damerau–Levenshtein 距离的原因是它无法很好地检测到额外的名称或缺失的名称。我对 Levenshtien 距离的理解是,它找到将一个词更改为另一个词所需的最小单字符编辑次数(插入、删除或替换)。因此,以下将被视为与原始字符串的距离相同。
Original string: "Juan Beldad"
Want to find: "Juan Manuel Beldad"
(7 character insertion)
Would also find: "Mike Bell"
(5 character substitution (M-i-k-e-l), 2 character deletion(a-d))
由于两者的编辑距离均为 7,因此“Mike Bell”与“Juan Beldad”的距离与“Juan Manuel Beldad”的距离相等。
我正在考虑查询数据库,删除输入端和表端的中间名,然后进行 Levenshtien/Damerau–Levenshtein 距离?我是不是想多了,还有更好的方法吗?
最佳答案
匹配名称时需要考虑很多可能的问题。其中一些是:
Damerau–Levenshtein 距离是 edit distance algorithms 之一您可以使用。每种算法都负责不同的操作(字符插入、替换、删除、交换等),两者都不是完美的,但每种算法都提供了两个字符串之间的距离。
您需要决定您可以接受多少误差(即正匹配的截止值)。您给出的示例包括至少 7 个操作。在那么多操作中,许多名称将返回相同的距离。
当比较名字时,你应该尝试通过规范化使双方具有可比性:例如,如果一方只有名字的第一个字母,你也应该在另一方做同样的事情,以便编辑距离算法给出你会得到更好的结果。
同样,如果对方没有中间名,您可以去掉中间名(您可以忽略中间名作为名字输入的情况)。但更好的替代方法是使用名称中所有可用的词生成所有可能的名字-姓氏对,然后查看是否有任何对会产生更好的编辑距离。您还可以单独比较每个单词并找到得分最高的最佳单词组合(权衡是忽略单词边界处的拼写错误)。
您还应该考虑使用 phonetic similarity algorithm除了 Damerau–Levenshtein 之外,还喜欢 Double Metaphone,并生成综合分数。语音算法是为特定的语系设计的,并试图确定两个名字在该语系中是否听起来相似。结果本身并不可靠(至少我的经验是这样),但这与编辑距离算法相结合将改善您的匹配。
为了降低错误率,应考虑额外的数据元素,如 ZIP、DOB 等。
最后,一切都取决于权衡:您的预期用例、您可接受的正匹配阈值、您的数据质量、时间/成本限制等。例如:您可以只需要第一个字母除了 Damerau–Levenshtein 距离之外,名字和姓氏的第一个字母要相同。这将通过忽略首字母拼写错误的权衡来减少误报池。
就像现在的许多事情一样,我认为通过训练有素的机器学习模型可以在这个领域取得最好的结果。我已经有一段时间没有在这个领域工作了,所以我不确定那里有什么,但你可能会找到一个很好的基于云的解决方案来获得最好的质量匹配,当然是收费的,如果这对你很重要的话。
您可以看到 overview of name matching techniques此处作为进一步阅读。
关于c# - 从数据库中查找相似的人名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63431855/
我的问题是如何在 python 中创建一个简单的数据库。我的例子是: User = { 'Name' : {'Firstname', 'Lastname'}, 'Address' : {'Street
我需要创建一个与远程数据库链接的应用程序! mysql 是最好的解决方案吗? Sqlite 是唯一的本地解决方案吗? 我使用下面的方法,我想知道它是否是最好的方法! NSString *evento
给定两台 MySQL 服务器,一台本地,一台远程。两者都有一个包含表 bohica 的数据库 foobar。本地服务器定义了用户 'myadmin'@'%' 和 'myadmin'@'localhos
我有以下灵活的搜索查询 Select {vt:code},{vt:productcode},{vw:code},{vw:productcode} from {abcd AS vt JOIN wxyz
好吧,我的电脑开始运行有点缓慢,所以我重置了 Windows,保留了我的文件。因为我的大脑还没有打开,所以我忘记事先备份我的 MySQL 数据库。我仍然拥有所有原始文件,因此我实际上仍然拥有数据库,但
如何将我的 Access 数据库 (.accdb) 转换为 SQLite 数据库 (.sqlite)? 请,任何帮助将不胜感激。 最佳答案 1)如果要转换 db 的结构,则应使用任何 DB 建模工具:
系统检查发现了一些问题: 警告:?:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式 提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
系统检查发现了一些问题: 警告:?:(mysql.W002)未为数据库连接“默认”设置 MySQL 严格模式 提示:MySQL 的严格模式通过将警告升级为错误来修复 MySQL 中的许多数据完整性问题
我想在相同的 phonegap 应用程序中使用 android 数据库。 更多说明: 我创建了 phonegap 应用程序,但 phonegap 应用程序不支持服务,所以我们已经在 java 中为 a
Time Tracker function clock() { var mytime = new Date(); var seconds
我需要在现有项目上实现一些事件的显示。我无法更改数据库结构。 在我的 Controller 中,我(从 ajax 请求)传递了一个时间戳,并且我需要显示之前的 8 个事件。因此,如果时间戳是(转换后)
我有一个可以收集和显示各种测量值的产品(不会详细介绍)。正如人们所期望的那样,显示部分是一个数据库+建立在其之上的网站(使用 Symfony)。 但是,我们可能还会创建一个 API 来向第三方公开数据
我们将 SQL Server 从 Azure VM 迁移到 Azure SQL 数据库。 Azure VM 为 DS2_V2、2 核、7GB RAM、最大 6400 IOPS Azure SQL 数据
我正在开发一个使用 MongoDB 数据库的程序,但我想问在通过 Java 执行 SQL 时是否可以使用内部数据库进行测试,例如 H2? 最佳答案 你可以尝试使用Testcontainers Test
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 已关闭 9 年前。 此问题似乎与 a specific programming problem, a sof
我正在尝试使用 MSI 身份验证(无需用户名和密码)从 Azure 机器学习服务连接 Azure SQL 数据库。 我正在尝试在 Azure 机器学习服务上建立机器学习模型,目的是我需要数据,这就是我
我在我的 MySQL 数据库中使用这个查询来查找 my_column 不为空的所有行: SELECT * FROM my_table WHERE my_column != ""; 不幸的是,许多行在
我有那个基地:http://sqlfiddle.com/#!2/e5a24/2这是 WordPress 默认模式的简写。我已经删除了该示例不需要的字段。 如您所见,我的结果是“类别 1”的两倍。我喜欢
我有一张这样的 table : mysql> select * from users; +--------+----------+------------+-----------+ | userid
我有表: CREATE TABLE IF NOT EXISTS `category` ( `id` int(11) NOT NULL, `name` varchar(255) NOT NULL
我是一名优秀的程序员,十分优秀!