- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在寻找以下问题的架构解决方案:
问题的一般描述
我有很多不同的数据实体(大约 1500 万)。每个实体都与某些关键字(或标签)相关联(在最坏的情况下,从几个到每个实体数百个)。
给定 N
个不同的关键字,我的任务是按以下顺序检索以下结果:
N
个给定关键字关联的所有实体;N-1
给定关键字的任意组合的实体;N-2
给定关键字的任意组合的实体;N-K
限制,但在一般情况下,限制到 1 个关键字匹配)。朴素的方法
我想到的天真的解决方案是使用 MySQL/PostgreSQL RDBMS 为每个关键字创建简单的反向索引。通常它会包含两个表:
Table Keywords Table Entities
--------------------- ---------------------
id keyword id keyword_id
--------------------- ---------------------
1 tag1 1 1
2 tag2 1 2
3 tag3 2 3
Keywords
存储关键词;Entities
存储实体 id
-s 和 keyword_id
-s 之间的关系。对于每个 keyword1 & keyword2 & ... & keywordN
查询,我将检索每个查询关键字的所有实体 ID 集,然后对 N
执行手动搜索-关键字、N-1
-关键字等应用程序级别的数学。
问题
显然这种方法会遇到两个问题:
Entities
表中接收数据集的时间很长(即使使用索引);N
关键字匹配项。对于这两个问题,请考虑在一般情况下一个标签可以与数百万 条目相关联。
如何高效处理这些问题?
最佳答案
我会使用 the intarray
extension和一个 GiST 索引。
使用标签数组存储您的实体,例如:
CREATE EXTENSION intarray;
CREATE TABLE entity(
entity_id BIGSERIAL PRIMARY KEY,
tags integer[] not null
);
INSERT INTO entity(tags) values (ARRAY[1,2,3]);
INSERT INTO entity(tags) values (ARRAY[1,3,5]);
INSERT INTO entity(tags) values (ARRAY[1]);
INSERT INTO entity(tags) values (ARRAY[]::integer[]);
CREATE INDEX entity_tags_idx ON entity USING GIST(tags);
并用一些模糊的东西来查询:
SELECT
*,
ARRAY[1,3] & tags AS matched_tags
FROM entity
WHERE ARRAY[1,3] && tags
ORDER BY array_length(ARRAY[1,3] & tags,1) DESC;
索引将用于排除没有任何匹配标签的行。结果集将按匹配标签的数量降序排列。在具有相同数量的匹配标签的组内没有顺序,但您可以为此添加第二个排序键。
只要每个实体都没有非常庞大的标签列表,这应该能很好地工作。如果不需要,请不要计算“matched_tags”。如果您确实需要它,请考虑将其计算包装到一个子查询中,然后在 ORDER BY
中使用计算值,而不是在那里重新计算它。
您可能需要一台有足够 RAM 的机器来容纳 GiST 索引。如果 UPDATE
/INSERT
率很低,您可以使用 GIN
索引; GIN
的性能对于变化很小的数据更好,而对于变化很大的数据非常糟糕。
关于mysql - 多个关键字搜索的反向索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20181869/
我能否获得一个具有两个参数的递归Prolog谓词,称为反向,它返回列表的反向: 示例查询和预期结果: α-反向([a,b,c],L)。 L = [c,b,a]。 由两个称为palindrome的参数组
在使用 get_dummies() 将分类数据转换为数字数据后,我的数据框看起来像这样 score1 score2 country_CN country _AU category_leader ca
我有一张 table ,上面有一个国家/地区列表。说这些国家之一是“马其顿” 如果搜索“马其顿共和国”,什么 SQL 查询会返回“马其顿”记录? 我相信在 linq 中它会是这样的 var count
我们有一个角色继承结构,它假设每个人都默认获得最低级别的角色,而不是最高级别的过滤,如下图所示: role.Everyone //lowest level; everyone gets this ro
我正在使用 $.each() 解析数组,但在其中,我使用 .splice() 方法,因此我需要向后迭代。这可能吗? var store = [...]; //... var rules = [...]
我有一个 SPLObjectStorage 对象,其中 Player 对象作为键,分数作为与之关联的信息。玩家对象按照从最高分到最低分的顺序添加到存储中,但我现在需要以相反的顺序遍历它们。 我还需要能
我无法理解这一点:如果我给 Prolog reverse([], A). 它工作得很好,如果我给它 reverse(A, [] ). 并根据第一个建议回答 ; 它挂起!为什么? (GNU Prolog
我有一个 SPLObjectStorage 对象,其中 Player 对象作为键,分数作为与之关联的信息。玩家对象按照从最高分到最低分的顺序添加到存储中,但我现在需要以相反的顺序遍历它们。 我还需要能
我有一个HashMap看起来像: HashMap playerHashMap = new HashMap<>(); 玩家是包含姓名、号码、年龄等的对象。 现在我已经对它进行了排序,它看起来像这样: k
我有这个: file://localhost/Volumes/Untitled%20RAID%20Set%201/Callum/iTunes/Music/Steppenwolf/Steppenwolf
我正在使用 std::regex 并希望找到与某个用户定义的正则表达式字符串匹配的字符串中的最后一个位置。 例如,给定正则表达式 :.* 和字符串“test:55:last”,我想找到“:last”,
有一个表 ServErog(服务),它被重新引导到 4 个表 ServA、ServB、ServC、ServD(它们是不同的非统一服务),其中包含 servtype(服务类型)和 type_id(来自其
这个问题在这里已经有了答案: What is the best way to convert date from JavaScript string in format YYYYMMDD to Ja
我知道如何获得包含几个词的所有结果: SELECT * FROM `table` WHERE MATCH (`row`) AGAINST ('+word1 +word2' IN BOOLEAN MOD
你好,我有这个 html 代码: .container{ width: 450; height: 400; border:1px solid
我想知道是否有任何方法可以使用相同的 CSS 过渡实例来将其向前移动然后向后/向后移动。例如,假设我有这种转变: @-webkit-keyframes fade-transition { fr
假设我有这些字符串: char ref[30] = "1234567891234567891"; char oth[30] = "1234567891234567891"; 我想在 C++ 中使用 S
所以我有这段代码,它使 xcode 崩溃 void strrev(const std::string& str) { for(size_t i=str.length();i>=0;i--)
我正在使用下面的代码使每张图片 1 对 1 淡入淡出。我怎样才能反向执行此操作以使图片以相反的顺序加载? img {display:none;} $('img').each(function(
我正在尝试弄清楚如何改变 FrameLayout 堆叠其子项的方式。 目前它是最新的(先进先出)。我想更改它,使最新的 child 位于底部(FILO)。我试着查看 FrameLayout 的源代码,
我是一名优秀的程序员,十分优秀!