gpt4 book ai didi

postgresql - 在 postgresql 中检查 IF String1 = String2(只有 1 个拼写错误)(fuzzymatch 和 levenshtein 不可用)

转载 作者:行者123 更新时间:2023-11-29 13:06:00 24 4
gpt4 key购买 nike

我需要检查一个电子邮件地址是否与另一个电子邮件地址匹配,但可能有一个拼写错误(例如,“hormail”而不是“hotmail”、缺少一个字母或一个额外的字母)。

这是一个 postgresql(版本 9.1.4)查询,fuzzymatch 和 levenshtein 都不可用。

最佳答案

这是一个起点。该函数将两封电子邮件分解为 (char-pos, char) 对,然后找到两个输入之间不匹配的对。

CREATE OR REPLACE FUNCTION email_diffs(
email1 IN text, email2 IN text,
chnum OUT integer, ch OUT text, fromwhich OUT integer
)
RETURNS SETOF RECORD AS $$
BEGIN
RETURN QUERY
WITH
e1chars AS (
SELECT generate_series(0, length($1) -1 ) AS chpos, regexp_split_to_table($1,'') ch
),
e2chars AS (
SELECT generate_series(0, length($2) - 1) AS chpos, regexp_split_to_table($2,'') ch
),
only_in_e1chars AS (
SELECT * FROM e1chars EXCEPT SELECT * FROM e2chars
),
only_in_e2chars AS (
SELECT * FROM e2chars EXCEPT SELECT * FROM e1chars
),
mismatched_pairs AS (
SELECT *, 1 FROM only_in_e1chars UNION SELECT *, 2 FROM only_in_e2chars
)
SELECT * FROM mismatched_pairs;
END;
$$ LANGUAGE 'plpgsql' IMMUTABLE;

结果是这样的:

regress=# SELECT * FROM email_diffs('fred@bo','fred@bob');
chnum | ch | fromwhich
-------+----+-----------
7 | b | 2
(1 row)

regress=# SELECT * FROM email_diffs('fred@bob','fred@bbo');
chnum | ch | fromwhich
-------+----+-----------
6 | b | 2
6 | o | 1
7 | b | 1
7 | o | 2
(4 rows)

您应该能够使用另一个 CTE 来调用它来测试您感兴趣的每个错误,或者只是在该主函数中扩展 CTE 并使用附加子句来测试每个案例并返回结论。

具体如何做到这一点取决于您必须测试的规则的具体情况,以及您对准确检测一个拼写错误的严格程度。你没有具体说明。


您可能已经注意到在 e1charse2chars 中使用没有 FROM 子句的 SELECT 看起来很奇怪,其中在 SELECT 列表中调用了两个函数。这是一个非常奇怪的 PostgreSQL 对 SQL 的扩展,你真的不应该通常使用它,因为结果通常不是你所期望的。 PostgreSQL 将在 9.3 中支持 SQL 标准的 LATERAL 语法,应该优先使用它。

关于postgresql - 在 postgresql 中检查 IF String1 = String2(只有 1 个拼写错误)(fuzzymatch 和 levenshtein 不可用),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12214668/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com