- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
如何匹配不准确且单词顺序不同的字符串。通常字符串具有相似的数字模式,但单词的顺序可能不同。
比如我会考虑一个很好的字符串匹配:
目标字符串:Apple 10mg/51L Tail
测试字符串:Tail 10mg/51L Apple
(只是打乱单词,拼写正确)
我还会考虑以下字符串之间的良好匹配:
测试字符串:51L MissleadingLENWord ObfuscateTail 10mg Apple
(如果我们用LIKE子句一一检查每个单词,就可以在测试字符串中找到目标字符串的所有单词即目标字符串的“尾部”可以在单词“ObfuscateTail”的测试字符串中找到。
我想在返回百分比数字的函数中看到这个问题的解决方案,这意味着字符串有多相似 - 零 - 字符串不同,100% 两个字符串相同。
我应该使用哪种算法?最好能用 SQL Server 实现。
我可以在这里找到一些推荐的算法:Fuzzy matching using T-SQL .leading answer 中提到的Levenshtein 距离算法是否适用于单词的混合顺序?
最佳答案
只要单词是分开的(空白、/
或任何其他定界符),这可以通过字符串拆分器和命中计数来完成,但您不会在中找到“Tail” “混淆尾部”。您还需要一些CamelCase 解析...
一个相当简单的解决方法是对所有片段进行 LIKE
搜索,但这可能会带来很多结果 - 而且(当然!)这不会很快......
尝试这样的事情:
DECLARE @mockupTable TABLE(ID INT IDENTITY, YourTarget VARCHAR(100));
INSERT INTO @mockupTable VALUES('51L MissleadingLENWord ObfuscateTail 10mg Apple')
,('Some other 51L with differing words');
DECLARE @search VARCHAR(100)='Apple 10mg/51L Tail';
WITH Parted AS
(
SELECT CAST('<x>' + REPLACE(REPLACE(@search,' ','/'),'/','</x><x>') + '</x>' AS XML) AS SearchFragmentsXML
)
,AllSearchWords AS
(
SELECT frgmnt.value(N'.',N'nvarchar(max)') AS Frg
FROM Parted
CROSS APPLY SearchFragmentsXML.nodes(N'/x') AS A(frgmnt)
)
SELECT ID
,COUNT(*) AS CountHits
,(SELECT COUNT(*) FROM AllSearchWords) AS CountFragments
FROM @mockupTable AS t
INNER JOIN AllSearchWords AS Frgs ON t.YourTarget LIKE '%' + Frgs.Frg + '%'
GROUP BY ID;
结果
ID CountHits CountFragments
1 4 4
2 1 4
“命中数”越接近“片段数”越好。
DROP FUNCTION dbo.YourSearch;
GO
CREATE FUNCTION dbo.YourSearch(@SearchIn VARCHAR(MAX), @SearchFor VARCHAR(100)='Apple 10mg/51L Tail')
RETURNS FLOAT
AS
BEGIN
DECLARE @rslt DECIMAL(10,4) =
(
SELECT CAST(COUNT(*) AS FLOAT) / MAX(SearchFragmentsXML.value('count(/x[text()])','float'))
FROM
(
SELECT CAST('<x>' + REPLACE(REPLACE(@SearchFor,' ','/'),'/','</x><x>') + '</x>' AS XML) AS SearchFragmentsXML
) AS Parted
CROSS APPLY SearchFragmentsXML.nodes(N'/x') AS A(frgmnt)
WHERE @SearchIn LIKE '%' + frgmnt.value(N'text()[1]',N'nvarchar(max)') + '%'
);
RETURN @rslt;
END
GO
DECLARE @mockupTable TABLE(ID INT IDENTITY, YourTarget VARCHAR(100));
INSERT INTO @mockupTable VALUES('51L MissleadingLENWord ObfuscateTail 10mg Apple')
,('Some other 51L with differing words');
SELECT t.*
,dbo.YourSearch(t.YourTarget,'Apple 10mg/51L Tail') AS HitCoeff
FROM @mockupTable AS t;
结果
ID YourTarget HitCoeff
1 51L MissleadingLENWord ObfuscateTail 10mg Apple 1
2 Some other 51L with differing words 0,25
提示:如果您使用带有 SessionID
的物理表,您可以在其中填写搜索字符串的片段,这将大有帮助。然后将 SessionID
传递给函数并从那里获取片段。这至少可以避免重复拆分并可以使用结果缓存。
关于sql-server - 模糊字符串匹配 SQL - 不同顺序的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48380545/
我正在创建一个有效的突变,但我不确定它是否按照我认为的方式工作。但是,我想知道执行顺序是什么? 异步 从上到下同步 同步随机顺序 其他 我想确保在执行插入/更新插入之前从表中删除某些项目。使用以下突变
如何更改规则中的前提顺序? 例如,在伊莎贝尔的自然演绎规则中: mp: ?P ⟶ ?Q ⟹ ?P ⟹ ?Q 我们可以将顺序更改为: ?P ⟹ ?P ⟶ ?Q ⟹ ?Q 我可以用 rev_mp或者定义一
关闭。这个问题需要details or clarity .它目前不接受答案。 想改善这个问题吗?通过 editing this post 添加详细信息并澄清问题. 8年前关闭。 Improve thi
我正在使用 Hibernate 3.2,并使用标准来构建查询。我想为多对一关联添加和“排序”,但我不知道如何做到这一点。 Hibernate 查询最终看起来像这样,我猜: select t1.a, t
我正在开发一个项目,但无法让我的 javascript 按顺序工作。我知道 javascript 可以并行执行任务,因此当您向不响应的服务器发出请求时,它不会被卡住。这有它的优点和缺点。就我而言,这是
在下面的代码中,我认为f1 > f2 > f3是调用顺序,但是仅f1被调用。如何获得依次调用的3个函数? 我已经将以下内容添加到main函数中,它可以按预期工作,但是我想知道是否还有其他确定的方法可以
我有一个如下所示的对象数组: [{ "id": 1, "Size": 90, "Maturity": 24, }, { "id": 2, "S
这是征求意见和要求的请求。我是Docker的新手。 我想要一个用于Python项目的生产和开发容器(可能也进行单元测试)。我的搜索指向多阶段Dockerfile(以及运行它们的多个docker-com
我想知道解决以下问题的有效方法是什么: 假设我在组 1 中有三个字符,在组 2 中有两个字符: group_1 = c("X", "Y", "Z") group_2 = c("A", "B") 显然,
在 Cordova 网站上,您可以看到一长串按字母顺序排列的钩子(Hook)列表,但它们触发和执行的正确顺序是什么? 我正在尝试在构建/编译之前将 cordova.js 脚本添加到 index.htm
我想知道解决以下问题的有效方法是什么: 假设我在组 1 中有三个字符,在组 2 中有两个字符: group_1 = c("X", "Y", "Z") group_2 = c("A", "B") 显然,
这个问题已经有答案了: 奥 git _a (2 个回答) 已关闭 9 年前。 这是我的一个练习的代码, public class RockTest { public static void main(
我使用 HashMap 来存储一些数据,但每当新数据保存到 HashMap 或旧数据移出 HashMap 时,我都需要将其保持升序。但是hashmap本身不支持顺序,我可以使用什么数据结构来支持顺序?
我想创建一个序列,当星期几与函数参数中的日期相同时,它会返回所有年份的结果(例如:自开始日期起,2 月 12 日为星期日的所有年份)。 let myDate (dw:System.DayOfWeek)
我有一个包含许多元素的 Xelement。 我有以下代码来对它们进行排序: var calculation = from y in x.Elements("row")
假设我有: 在 javacript 文件中,我为类按钮和 ID 名称定义了点击操作,例如: $("#name").click(function(event){ alert("hi"); }) $
我有一个包含 2 个 subview 的 View - collectionView 和自定义 View 。我想设置一个操作在布置 2 个 View 后运行,但layoutSubViews 运行了两次
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 2年前关闭。 Improve this questi
我想知道 C++ 中是否有内置方法来比较两个双向迭代器的顺序。例如,我有一个 Sum 函数来计算同一列表中 2 个迭代器之间的总和: double Sum(std::list::const_itera
在 MySQL 中,这两个查询之间有区别吗? SELECT * FROM .... ORDER BY Created,Id DESC 和 SELECT * FROM .... ORDER BY Cre
我是一名优秀的程序员,十分优秀!