通过相关性排序按多个标签搜索的 SQL 查询

转载作者：行者123 更新时间：2023-11-29 11:25:18

25

4

我有一组城市，它们与一组标签具有多对多关系。用户给了我一组标签(可能包含重复项!)，我需要返回一个匹配条目列表，按相关性排序。

数据

下面是一些示例数据来说明问题:

城市:

--------------------
| id |    city     |
--------------------
|  1 |  Atlanta    |
|  2 |  Baltimore  |
|  3 |  Cleveland  |
|  4 |  Denver     |
|  5 |  Eugene     |
--------------------

标签:

------
| id |
------
|  1 |
|  2 |
|  3 |
|  4 |
------

城市标记如下:

Atlanta:   1, 2
Baltimore: 3
Cleveland: 1, 3, 4
Denver:    2, 3
Eugene:    1, 4

...因此 CityTags 表如下所示:

------------------------
|  city_id  |  tag_id  |
------------------------
|     1     |     1    |
|     1     |     2    |
|     2     |     3    |
|     3     |     1    |
|     3     |     3    |
|     3     |     4    |
|     4     |     2    |
|     4     |     3    |
|     5     |     1    |
|     5     |     4    |
------------------------

例子1

如果用户给我标签 ID:[1, 3, 3, 4]，我想计算每个标签有多少匹配项，并返回按相关性排序的结果，例如:

------------------------
|    city    | matches |
------------------------
|  Cleveland |    4    |
|  Baltimore |    2    |
|  Eugene    |    2    |
|  Atlanta   |    1    |
|  Denver    |    1    |
------------------------

由于 Cleveland 匹配了所有四个标签，所以它排在第一位，然后是 Baltimore 和 Eugene，每个都有两个标签匹配，依此类推。

例子2

还有一个例子可以作为很好的衡量标准。对于搜索 [2, 2, 2, 3, 4]，我们会得到:

------------------------
|    city    | matches |
------------------------
|  Denver    |    4    |
|  Atlanta   |    3    |
|  Cleveland |    2    |
|  Baltimore |    1    |
|  Eugene    |    1    |
------------------------

SQL

如果我忽略重复的标签，那就很简单了:

SELECT name,COUNT(name) AS relevance FROM
  (SELECT name FROM cities,citytags 
    WHERE id=city_id AND tag_id IN (1,3,3,4)) AS matches
  GROUP BY name ORDER BY relevance DESC;

但这不是我需要的。我需要尊重重复项。有人可以建议我如何完成这项工作吗？

Postgresql 中的解决方案

啊哈!我需要一个临时表。 Postgresql 允许我使用它的 WITH 语法来做到这一点。这是解决方案:

WITH search(tag) AS (VALUES (1), (3), (3), (4))
SELECT name, COUNT(name) AS relevance FROM cities
INNER JOIN citytags ON cities.id=citytags.city_id
INNER JOIN search ON citytags.tag_id=search.tag
GROUP BY name ORDER BY relevance DESC;

非常感谢那些回答的人。

最佳答案

如果用户列表以逗号分隔的列表形式出现，您可以尝试将其转换为临时表并加入其中。我不知道 PosteGRE 的相关语法，所以这是 MySql 中的想法:

create temporary table usertags (tag_id int);
insert usertags values (1),(3),(3),(4);

SELECT name, COUNT(name) AS relevance
FROM cities
JOIN citytags on cities.id = citytags.city_id
JOIN usertags on citytags.tag_id = usertags.tag_id
GROUP BY name ORDER BY relevance DESC;

将逗号分隔的列表转换为上面的代码就像将所有 , 替换为 ),( 使用您的服务器端语言一样简单，并且然后将其嵌入到 VALUES 语句中以填充临时表。

演示(MySql):http://www.sqlize.com/1qNThhD9tC

关于通过相关性排序按多个标签搜索的 SQL 查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7714765/

25

4

0

文章推荐： sql - PostgreSQL:按计算值的总和排序

文章推荐： postgresql - 使用 Postgis 绘制相机范围

文章推荐： sql - 条件的放置重要吗？

r - 来自矩阵的 Spearman 相关性
我有一个如下所示的数据框: Samples GENE GEN1 GEN2 GEN3 GEN4 GEN5 Sample1 21.0 160 110 3.90 2.62 16.5 Sa
elasticsearch - 基于大多数匹配的查询的 Elasticsearch 相关性
我有以下映射 posts":{ "properties":{ "prop1": { "type": "nested", "properties": { "item
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
stata - 如何导出 Spearman 相关性
我正在尝试使用 estpost 和 community-contributed 命令将 Spearman 相关矩阵导出到 rtf 或 Excel 文件中 esttab。但是，我收到以下错误: inv
mysql - ORDER BY 相关性，同时使用参数化值
我在网上找到了以下查询: SELECT company_title FROM companies WHERE company_title like '%gge%' GROUP BY compa
mysql - 如何构建即时搜索引擎？ (具有排名/相关性)
我是 Sphinx 和 Lucene 的重度用户。Sphinx 只需要一个数据库，对其进行索引。然后您调用 Sphinx 获取 ID。但是，如果我想创建一个非常微型的搜索引擎怎么办？就几行数据，几
相关性/匹配值(value)树算法
是否有我要在下面描述的模式/算法的名称？... 假设您有一棵像这样的相关数据树: IDEs Visual Studio Visual Studio 2008 Visual Studio 2010 Ec
linux - 两列之间的 Pearson 相关性
早上好。这是我的问题:我有几个文件，如下所示: 104 0.1697 12.3513214 15.9136214 112 -0.3146 12.0517303 14.8027303 122 0.271
elasticsearch - ES function_score中_score(相关性)的值范围是多少？
在尝试将function_score与boost_mode: "sum"一起使用时(因为这样可以更轻松地跟踪不同的贡献)，我想归一化查询相关性对整体文档分数的影响，但是为此，我需要知道它可以取什么值。
java - mahout Spearman 相关性 java
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
python - scipy:spearmanr 返回值的重要性(相关性)
X,Y 的 spearmanr(Spearman 相关性)输出为我提供以下信息: 相关性:0.54542821980327882 P 值:2.3569040685361066e-65 其中 len(X
python - 部分日期的 Pandas DataFrame 相关性
我有一个 Pandas 数据框，它有一个七年时间范围内的日期时间索引和 10 种不同 Assets 的价格数据。我想运行 dataframe.corr 函数来评估 Assets 之间的关系，我的问题是
algorithm - 字符串比较算法，相关性， "alike"2个字符串是多少
我有相同数据(公司)的 2 个信息源，我可以通过唯一 ID(契约(Contract)号)将它们连接在一起。第二个不同来源的存在是由于这两个来源是手动独立更新的。所以我在 2 个表中有一个 ID 和一个
php - PHP 中的 Pearson 相关性
我正在尝试在php中实现两组数据之间人员相关系数的计算。我只是想做可以在这个 url 上找到的移植 python 脚本 http://answers.oreilly.com/topic/1066-ho
PHP 和 Elasticsearch 在返回的对象中包含分数/相关性
所以我使用 PHP Symfony 和 Ongr-Elasticsearch 包来查询我的文档并返回匹配的对象。结果似乎按相关性/分数排序，但实际相关性/分数不包含在对象本身中。这可能吗？我想将分数
python - Pandas 滚动窗口 Spearman 相关性
我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和/或 Pearson 相关性。我试过df['corr'] = df['col1'].rolling(P).corr(df['
r - 找到最佳方法来计算 R 中数百万个组合的最高 Pearson 相关性
我正在处理一个大型数据集。不过，我将从一个小示例开始，以说明我要实现的目标。我有以下向量: season %group_by(season, round, team)%>%dplyr::mutate
c# - .AspNetCore.相关性。未找到国家属性(property)。未知位置
我正在使用 OIDC 的混合身份验证流程。 options.Events.OnRedirectToIdentityProvider = redirectContext =>
elasticsearch - Elasticsearch 错误- undefined variable [相关性]
我正在尝试查询我的产品ElasticSearch索引并创建一个script_score，但我一直收到错误Variable [relevancy] is not defined. 我尝试只用一个数字替换

首页

博学

6Ren·AI

商城

通过相关性排序按多个标签搜索的 SQL 查询

数据

例子1

例子2

SQL

Postgresql 中的解决方案