- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
假设我有一大组数组(大小可达数百万),我想确定(最好是准确地,虽然近似是好的)这个集合中与输入有最大交集的数组,什么将是最有效的方法吗?我会在底部列出一些我想到的解决方案,将其简化为另一个问题,但我不确定它们是否一定是最好的。
这组数组可以存储在任何数据结构中,数组可以按任何方式排序存储。这个想法是在这里优化查询时间。
示例:假设我的数组集是(为方便起见,以类似基数的方式排序,可以以任何选择的方式排序):
[('a', 'b'), ('a', 'e', 'f'), ('b', 'f', 'g'), ('b', 'j', 'z'), ('d', 'l', 'f'), ('x', 'y', 'z')]
我的输入数组是:
('a', 'f')
那么各自的交集是:
[('a'), ('a', 'f'), ('f'), (), ('f'), ()]
因此输出将是 ('a', 'f')
,具有大小为 2 的最大交集。作为奖励,拥有最大的 K 会更好
这些,所以在这里,如果 K = 3,输出将是(以任何顺序):
[('a', 'f'), ('f'), ('a')]
我想到的一些可能的解决方案:
('a', 'f')
可以表示为 10000100000000000000000000
感谢您对正确方向的任何回应或指示!
最佳答案
一些事先由于缺乏声誉而无法通过评论提出的问题:
如果没有 hashset,我会按长度对数组进行排序,并从最长的数组开始,最后可能会通过找到一个大于或等于较短数组大小的交集大小来跳过较短的数组。
如果您还对数组本身进行排序,则可以使用 Hammington 距离,但您不必同时对所有数组进行排序和转换,而只需从它们的一部分开始。如果您不使用 Hammington 请记住,如果您将输入与输入大小为 + 1 的数组进行比较,则只需进行比较,直到遇到输入的最后一个元素小于当前数组的第一个比较元素。
a f
a c k z // since k > f we don't need to compare f and z
我认为这种方式会归结为 O(n lg n) 的复杂度,因为按大小对数组排序是 O(n lg n),计算大小 n * O(1) 并进行内基数排序 O(n)。比较本身将是 O(n lg n)(对此不太确定)所以总数将是 O(n lg n) * 2 + 2 * O(n) => O(n lg n)。
只是一个粗略的想法:您可以使用 Radix 对所有数组进行排序并将它们转换为 Hemmington,然后从那里用它们填充一棵树并遍历它直到没有进一步的遍历会导致更小的距离。我不知道这有多有效。
关于algorithm - 查找与输入数组具有最大交集的数组的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56439098/
我有一个现有站点,其数据库设计不正确并且包含大量记录,因此我们无法更改数据库结构。 本期数据库主要包含用户、问题、选项、答案4个表。有一组标准的问题和选项,但对于每个用户,每组问题和选项在答案表中都有
有没有办法找出两个 CGPathRef 是否相交。就我而言,所有 CGPath 都有 closePath。 例如,我有两条路径。一条路径是旋转一定角度的矩形,另一条路径是弯曲路径。两条路径的原点会经常
我目前正在使用 JavaFX 研究不同形状之间的边界相交。我想检测两个多边形在它们的点上而不是在它们的边界上的碰撞(即 2 个多边形)。 请参见图 1:不需要的行为和图 2:需要的行为。 是否有任何现
在我的three.js 场景中,我有一些立方体。我想为用户提供用鼠标选择框的可能性。 这是重要的代码(我使用 Three.js 版本 69。): function init() { [...]
我有一个问题。我想将四边形与四边形相交。 int main(){ typedef boost::geometry::model::point_xy TBoostPoint; typedef b
在 MongoDB 中我们找到了交集的方法,但我们也想实现日期范围排除。让我解释一下。 我们有每个支持团队的每日轮值表。每个支持团队可以每 15 分钟预订一次,持续 5-25 分钟(大约)。每个团队有
目录 1、列表求并集 1. union_by 2、列表求交集 1. intersection_by
我有以下查询: select id from t1 intersect select id from t2 intersect select id from t3 id 在某些表中可能不是唯一的,所以
需要完成此实现才能使用 UseSet 类。不确定我所实现的是否100%正确。 但是我需要 Union 和 SysDiff 方面的帮助。 public class Set { private Ar
我的程序打印主构造函数,但不返回 3 个底部函数,而是返回其编译结果。我哪里出错了? import java.util.*; public class Main { public static v
我正在尝试找到两个不同列表列表的交集。换句话说,找出 list1 中的所有列表是否与列表 2 中的任何列表相交。 列表1: [[1,4],[1,6],[6,8],[8,10]] 列表2: [[],
我正在尝试从 2 个已知 BST 的交集创建一个新的 BST。我在第二种情况下的 intersect2 方法中收到 NullPointerException,位于“cur3.item.set_acco
这个问题已经有答案了: self referential struct definition? (9 个回答) 已关闭 7 年前。 我有一个脚本 a.h #include b.h type
我在 user_profile 表上运行搜索,其中包含单个索引和复合索引: SELECT ••• FROM user_profile up JOIN auth_user
我正在尝试为(公寓)列表创建过滤器,通过 apartsments_features 表与 apartment features 建立多对多关系。 我只想包括具有所有某些功能(在表格上标记为"is")的
我想从两个给定的嵌套列表中创建一个新的嵌套列表(每个列表中都有唯一的项目),以便新的嵌套列表是两个列表的最大公共(public)交集。 一个例子希望能帮助阐明我的问题: old1 = [[1,
我在 Django 中有两个模型,我不确定如何编写它们(是否有一个抽象模型并继承等等......或者有两个不同的模型)但通常我有两种类型的对象 A 和 B。 A 和 B 完全相同,因为它们只是项目。它
我有一个像这样的数组 arrays = [ ['a', 'b', 'c', 'd'], ['a', 'b', 'c', 'g'], ['a',
我正在通过向 Mario Zechner 的开源跳线游戏添加更多功能来学习 libgdx。我正在尝试制作一些带有角度的平台并遇到旋转矩形的碰撞检测问题。 我关注了this解决方案并使用多边形和我的矩形
我有一个包含对象的数组: let data = [[{a:0}, {b:1}], [{a:1}, {b:1}]] 现在我想制作一个 lodash intersection这两个数组,返回 [{b:1}
我是一名优秀的程序员,十分优秀!