gpt4 book ai didi

sql - 比较具有大量数据的两组以找到相同的值

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:02:30 25 4
gpt4 key购买 nike

好的,问题看起来是这样的。我有一组 n 数据库行,其中 position 列为空。我需要使用该组(来自 3 个单独的列)中的地址数据(不同的组合等 - 无关紧要)将它们与另一组 m 元素(也来自数据库,它包含地址数据和所需的位置)。

因为这些集合非常大(大约百万条记录,并且该操作经常执行),我需要一些非常快速的算法来比较这两个集合并找到我需要的数据。

我试图找到一些东西,但我不知道它是否是任何众所周知的数学问题(也许是图论中的?)。

[编辑]

结构太大,无法在这里描述。但我会为此举一个例子。

第 1 组。

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1 | City1 | Street1 | 00000 | NULL |
| 2 | City2 | Street2 | 11111 | NULL |
| 3 | City3 | Street3 | 22222 | NULL |

第 2 组。

|[ID] | [SOME_KIND_OF_ADDRESS]              | [LOCATION] |
|-----|-------------------------------------|------------|
| 1 | Street 1 in City 1, 00000 blah blah | SOME_XY1 |
| 2 | Street 2 in City 1, 00001 blah blah | SOME_XY2 |
| 3 | Street 2 in City 2, 11111 blah blah | SOME_XY3 |
| 4 | Street 1 in City 4, 33333 blah blah | SOME_XY4 |

现在对于 Set 1 中的每个元素,我想尝试在 Set 2 中找到一些东西。在这种情况下,只有 City2, Street2City1, Street1 会匹配。所以结果会是这样的:

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1 | City1 | Street1 | 00000 | SOME_XY1 |
| 2 | City2 | Street2 | 11111 | SOME_XY3 |

最佳答案

正确的做法是解析集合 2 中的地址,然后在每个字段上创建索引。这样你的比较就会非常快。

否则,您有哪些选择?好吧,您基本上必须扫描第 2 组中的所有地址以进行比较。一些 SQL 引擎优化了字符串开头的比较(使用索引),因此一次比较可以使用索引。如果您有提取街道/城市/邮政编码的函数,那么某些数据库可以支持元素不是函数调用结果的“函数式”索引。

另一个选项是全文搜索。这将允许您使用称为倒排索引的结构搜索组件。

但是,我的建议是固定地址并提取您想要比较的部分。地址整改/标准化虽然既不便宜也不快速,但通常可以通过大大简化此类请求在中期收回成本。

关于sql - 比较具有大量数据的两组以找到相同的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15569454/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com