oracle - 使用 Soundex、Jaro Winkler 和编辑距离 (UTL

oracle - 使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值

转载作者：行者123 更新时间：2023-12-01 10:08:22

25

4

我正在尝试找到一种可靠的方法来匹配数据库中的重复人员记录。数据存在一些严重的数据质量问题，我也在尝试解决这些问题，但在我得到批准之前，我一直坚持我所拥有的数据。

我可以使用的表格列是:

SURNAME       VARCHAR2(43)
FORENAME      VARCHAR2(38)
BIRTH_DATE    DATE
ADDRESS_LINE1 VARCHAR2(60)
ADDRESS_LINE2 VARCHAR2(60)
ADDRESS_LINE3 VARCHAR2(60)
ADDRESS_LINE4 VARCHAR2(60)
ADDRESS_LINE5 VARCHAR2(60)
POSTCODE      VARCHAR2(15)

SOUNDEX 函数在此用途方面相对有限，但 UTL_MATCH 包似乎使用 Jaro Winker 算法提供了更好的匹配级别。

有没有人实现了一种可靠的方法来匹配此类数据，而不是重新发明轮子？

需要解决的数据质量问题:

邮政编码虽然是强制性的，但并不总是完全输入。
地址数据质量相对较差，输入的地址没有固定格式(即有些可能将 line1 设为“Flat 1”，而有些可能将 line1 设为“Flat1, 22 Acacia Ave”)。
名字列可以包含一个名字首字母、一个完整的名字，有时也可以包含多个名字。

例如我正在考虑:

连接所有地址字段并将 Jaro Winkler 算法应用于完整地址，并结合对连接在一起的全名进行类似测试。

可以直接比较出生日期以进行匹配，但由于大量数据仅以此匹配是不够的。

Oracle 10g R2 企业版。

欢迎任何有用的建议。

最佳答案

"I am trying to find a reliable method for matching duplicate person records within the database."

唉，没有这样的事情。您最多可以期望的是一个具有合理怀疑因素的系统。

SQL> select n1
       , n2
       , soundex(n1) as sdx_n1
       , soundex(n2) as sdx_n2
       , utl_match.edit_distance_similarity(n1, n2) as ed
       , utl_match.jaro_winkler_similarity(n1, n2) as jw   
from t94
order by n1, n2
/


  2    3    4    5    6    7    8    9  
N1                   N2                   SDX_ SDX_         ED         JW
-------------------- -------------------- ---- ---- ---------- ----------
MARK                 MARKIE               M620 M620         67         93
MARK                 MARKS                M620 M620         80         96
MARK                 MARKUS               M620 M622         67         93
MARKY                MARKIE               M620 M620         67         89
MARSK                MARKS                M620 M620         60         95
MARX                 AMRX                 M620 A562         50         91
MARX                 M4RX                 M620 M620         75         85
MARX                 MARKS                M620 M620         60         84
MARX                 MARSK                M620 M620         60         84
MARX                 MAX                  M620 M200         75         93
MARX                 MRX                  M620 M620         75         92

11 rows selected.

SQL> SQL> SQL>

SOUNDEX 的一大优势在于它可以对字符串进行标记。这意味着它为您提供了可以被索引的东西:当涉及到大量数据时，这是非常有值(value)的。另一方面，它又旧又粗糙。周围有更新的算法，例如 Metaphone 和 Double Metaphone。您应该能够通过 Google 找到它们的 PL/SQL 实现。

评分的优势在于它们允许一定程度的模糊性；这样您就可以找到 name_score >= 90% 的所有行。压倒性的缺点是分数是相对的，因此您无法索引它们。这种比较会在大量的情况下杀死你。

这意味着:

您需要多种策略。没有一种算法可以解决您的问题。
数据清理很有用。比较 MARX 与 MRX 和 M4RX 的分数:从名称中去除数字可以提高命中率。
您无法即时为大量姓名评分。如果可以，请使用标记化和预评分。如果您没有大量流失，请使用缓存。如果您负担得起，请使用分区。
使用 Oracle Text(或类似内容)构建昵称和变体词库。
Oracle 11g 为 Oracle Text 引入了特定的名称搜索功能。 Find out more.
建立一个用于评分的规范名称表并将实际数据记录链接到该表。
使用其他数据值(尤其是出生日期等可索引的数据值)来预过滤大量姓名或提高对提议匹配的信心。
请注意，其他数据值也有其自身的问题:2011 年 1 月 31 日出生的人是 11 个月还是 80 岁？
请记住，名称很棘手，尤其是当您必须考虑已罗马化的名称时:Moammar Khadaffi(在罗马字母表中)有 400 多种不同的拼写方式 - 甚至 Google 也无法就哪个变体是最规范。

根据我的经验，连接标记(名字、姓氏)是喜忧参半。它解决了某些问题(例如道路名称是否出现在地址行 1 或地址行 2)但会导致其他问题:考虑将 GRAHAM OLIVER vs OLIVER GRAHAM 评分与评分 OLIVER vs OLIVER、GRAHAM vs GRAHAM、OLIVER vs GRAHAM 和 GRAHAM vs OLIVER .

无论您做什么，最终都会出现误报和未命中的情况。没有算法可以证明错别字(尽管 Jaro Winkler 在 MARX 与 AMRX 方面做得很好)。

关于oracle - 使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8229436/

25

4

0

文章推荐： build - mongoid 新建与构建

文章推荐： java - 打开相机时调用 CONNECTIVITY_CHANGE

文章推荐： java - 计算按下按钮到执行一行代码之间的延迟的方法

oracle - Oracle 即时客户端和 Oracle 客户端的区别
Oracle 即时客户端和 Oracle 客户端有什么区别？你能给我解释一下吗？谢谢最佳答案 Oracle 客户端带有安装程序和许多可执行文件，例如 sqlplus，tnsping，它是完整而庞大的
oracle - 无需安装 Oracle 客户端即可连接 ORACLE 数据库服务器的替代方案
我正在寻找一个Delphi组件来直接连接到ORACLE数据库服务器，而无需安装oracle客户端。我知道Oracle Data Access (ODAC)来自DevArt 。还有其他组件具有此功能吗
oracle - 使用 Oracle 表作为输入参数编写 Oracle 存储过程
如何编写 Oracle 存储过程，以表 (X) 作为输入参数，并在过程内部使用表 X 来与另一个表 Y 联接？表 X 将包含数千条记录。不希望将表名作为 varchar 传递，然后使用动态 SQL
oracle - 使用 Oracle 表作为输入参数编写 Oracle 存储过程
如何编写 Oracle 存储过程，以表 (X) 作为输入参数，并在过程内部使用表 X 来与另一个表 Y 联接？表 X 将包含数千条记录。不希望将表名作为 varchar 传递，然后使用动态 SQL
oracle - Oracle sql中如何过滤空值
我要过滤COMMENTS属性为空的记录我试过了 SELECT TABLE_NAME, COMMENTS FROM (SELECT TABLE_NAME, COMMENTS FROM (sel
oracle - Oracle 工具的替代下载站点
我要下载 Oracle Instant Client for Linux x86-64 (64-bit)现在有一段时间了。现在我注意到该网站在过去几个月中一直遇到技术问题。要从 Oracle 下载
oracle - 没有安装 Oracle 客户端的 Delphi FireDac + Oracle
有什么方法可以将我的 Delphi 应用程序 (FireDac) 直接连接到 Oracle 数据库？目前可以连接，但需要安装Oracle Client 在 embarcadero 站点 ( http
oracle - where子句中的日期格式-Oracle
我有一张表，其中日期列的数据格式如下:“7/25/2014 12:14:27 AM”。我需要通过放入 where 子句来获取此日期。有人可以建议我该怎么做吗？最佳答案日期(存储在表中)是 repr
oracle - Oracle 中两个事务可以同时修改同一行吗？
如果两个事务试图同时修改同一行会发生什么？通常，一旦行被修改，另一个事务等待直到第一个事务执行提交或回滚。但是，如果他们恰好在同一时刻发送更新请求怎么办？最佳答案答案是否定的。两个事务不能同时修改
oracle - Oracle 模式中具有相同名称的两个索引
我想知道为什么我不能在 Oracle 模式中有两个同名的索引？它抛出一个错误，指出该名称已被使用。我的印象是，由于索引在一个特定的表上，这应该不会导致任何错误，除非我们对同一个表上的两个不同列使用相同
oracle - Oracle sql中的rownum与group by
我需要构建一个查询来按成员和到期日期检索信息组，但我需要为每个成员提供一个序列号.. 例如: 如果成员“A”有 3 条记录要过期，“B”只有 1 条，“C”有 2 条，我需要这样的结果: Number
oracle - Oracle 中的存储过程和独立过程有什么区别？
独立程序 create procedure proc1 ( begin end; ) 存储过程 create package pkg1 ( procedure proc2 begin end; ) 最
oracle - Oracle 中的外键约束问题
在 Oracle 9i 中声明 FK 时遇到问题。我在这里查看了许多关于 SO 和一些在线文档(例如 http://www.techonthenet.com/oracle/foreign_keys/f
oracle - Oracle 序列存储在哪个表空间中？
我和我的同事维护的应用程序在后端有一个 Oracle 数据库。我们正在考虑偶尔以“受限”模式运行应用程序，其中一个数据库表空间设置为只读。我们可以轻松地将必要的表和索引移动到单独的表空间，这些表空间将
oracle - Oracle 的用户定义聚合函数可以定义为用于两列吗？
我想实现一个自定义的回归聚合函数，类似于现有的 REGR_SLOPE . 我要定义的函数需要获取两列作为参数，例如 select T.EMPLOYEE_ID, CUSTOM_REGR_SL
oracle - Oracle 脚本中的错误处理
我已经尝试解决这个问题一段时间了，我认为是时候寻求帮助了。我正在构建一个架构配置脚本，我想添加一些脚本输出和错误处理。这个想法是脚本输出窗口只会向我显示关键消息而没有所有噪音。 Create Temp
oracle - Oracle 批量更新速度慢
在旧的 Oracle 服务器(我被告知是 8i)上使用 JDBC 时，我遇到了一个非常令人困惑和奇怪的问题。我在那里准备了一个表，其中包含大约 10 列、数字、varchars、一个 raw(255)
oracle - Oracle 分区表的唯一索引
我有一张 table Customer_Chronics在 Oracle 11g 中。该表具有三个关键列，如下所示: 分支代码客户 ID 期我已按 branch_code 列表按表分区，现在我进
oracle - oracle 在哪里存储用户定义的异常？
是否有存储用户自定义异常的oracle表？最佳答案没有。与其他变量一样，用户定义的异常在 PL/SQL block 中定义，并且具有 PL/SQL 变量将具有的任何范围。所以，例如 DECLAR
oracle - Oracle 中的序列与标识列
在 oracle 中使用序列并使用 Before insert trigger 自动递增列或使用标识列是否更好，因为它在 Oracle 12 c 中可用？最佳答案无论哪种方式，您都将使用序列。 1

首页

博学

6Ren·AI

商城

oracle - 使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值