- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有以下任务:
对于每个标签 X,我需要找到前 10 个 Y 标签,其中 X 和 Y 都出现在文档中,按 X 和 Y 同时出现的文档数量排序。
这个任务似乎很难解决:
有没有什么方法可以解决这个问题,而不用将所有组合都保存在内存中,或者使用并行算法(类似于 map reduce)来解决?如果我不需要它 100% 准确怎么办?
最佳答案
我认为在一般情况下,您将无法避免非常糟糕的运行时间 - 每个文档中有 5050 对,10M 文档,所有组合似乎都是可能的。
但是,在典型的现实世界数据中,您很少需要处理“对抗性”输入。一种可能的解决方案是首先计算所有 100K 项的出现次数,对它们进行排序,然后针对每个项 X,执行以下操作:
对于一个行为良好的文档集,其中 100K 项遵循关于文档计数的对数曲线,您将做的工作远远少于 (100)^2 * 10M 的工作,而天真的解决方案在所有情况下都需要这样做。诚然,对于性能不佳的文档集,您最终会做更多的工作,但这在现实世界中不应该发生。
至于“不是 100% 准确”,这个规范太模糊了,无法使用。什么样的错误是允许的?有多少?
---评论响应(评论太大)---
a) 考虑确定 1 亿个元素的最大值。您只需要保存扫描时最好的 1 个 - 同样的原则适用于确定 N 个项目中的前 X 个。将传入的元素添加到一个二叉堆中,当堆的大小超过X时,移除最弱的元素。添加结束,你将拥有顶部的X
b) 假设您正在确定前 10 个 X&Y 对,其中 X="Elephant"。假设在扫描 1000 个 Y 术语后,你有一个大小为 10 的堆,其中最小得分对的计数为 300。现在假设你检查的第 1001 个术语的文档计数为 299 - 因为只有 299 个文档有 Y 术语,最多299 个文档也有 X&Y,因此它不可能比你目前拥有的前 10 对中的任何一个更好,并且由于所有 Y 术语都按文档频率排序,事实上你现在知道你没有检查更多对!这就是 max 语句向您保证的。
c) 您为每个 X 做出的选择纯粹是一个优化决策。如果您有许多只存在于少量文档中的 X,那么这是一个很好的问题 - 这意味着每学期的工作量更少。
d) 如果您可以接受前 10 名错误的非零概率(对于每个术语),您可以通过使用抽样方法而不是完整、严格的扫描来减少运行时间索引。术语 X 在文档索引中越普遍,在根据您收集的信息可能拥有正确的前 10 个 X&Y 对之前,您必须(按比例)扫描的文档越少。得出这方面的确切数字需要了解相关索引中术语的预期分布。特别是:术语有多少相关性?数字 N(X)/MAXY(X) 通常是什么样子的,其中 N(X) 是包含术语 X 的文档数,MAXY(X) 是包含 X&Y 对的文档数,最大化所有项 Y != X
关于有序组合算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16589245/
就类似于这个问题:mongodb query multiple pairs using $in 我想用 (first, last) >= ('John', 'Smith') 找到前 10 个全名。使用
如何保留向 NSDictionary 添加对象的方式? 我意识到 NSDictionary 中的值没有特定的顺序,但就我而言,我需要保留使用 setValue:forKey: 添加的顺序,例如一个数组
看看上证所运营商 CMPORDPS - ordered compare packed singles CMPUNORDPS - unordered compare packed singles 有序和
我使用 PowerMock 来模拟静态方法。我需要验证静态和非静态方法调用的顺序。可以使用 PowerMock 来做吗? UPD 我使用 powermockito 扩展来模拟静态方法,因此使用 pow
例如,如何合并两个已排序的整数流?我认为这是非常基本的,但只是发现它根本不是微不足道的。下面的不是尾递归的,当流很大时它会堆栈溢出。 def merge(as: Stream[Int], bs: St
我试图在二叉树中查找/打印每个节点的中序后继,但编译器给我的结果是段错误。 这是结构:- struct node { int x; struct node *left; str
我有一个查询看起来像 SELECT a, b, c, d FROM tab ORDER BY a ASC, b ASC 我的结果集看起来像 +-----------------
首先,我试过搜索这个主题但一无所获(似乎找不到合适的关键词),所以如果这是重复的,请告知。 我一直在尝试从我的数据库中获取一些 time_stamp 并将它们按时间间隔排序。例如,我运行一个查询,如
这个问题在这里已经有了答案: How do I get the index of an iterator of an std::vector? (9 个回答) 关闭 6 年前。 我已经订购了 QVe
我有以下实体,如果我尝试通过 removeTask 方法从 TaskList 中删除 Task,则会出现异常。 @Entity public class TaskList extends Generi
所以,我对 C 编程还是很陌生。 有3个长度相同的字符串。 str1="abc", str2="def", str3="ghi". 新字符串中的输出将类似于“adgbehcfi”。 #include
我的查询有一个问题,它花费的时间太长(仅仅这个简单的查询就超过了两秒)。 乍一看,这似乎是一个索引问题,所有连接的字段都已编入索引,但我找不到其他我可能需要编入索引以加快速度的内容。一旦我将我需要的字
我正在寻找一个 Map 实现,它按照键值对的添加顺序迭代它们。例如 Map orderedMap = // instantiation omitted for obvious reasons :) o
我正在寻找具有以下功能的数据库系统: 分层(多维)键 每个维度的键排序 因此,如果我的 key 类似于 App > User > Item,我可以运行如下查询:“该用户的下一项是什么?”或者“这个应用
以下类使用 CRTP 尝试将类型添加到具有 Schwarz 计数器以确保初始化顺序的 std::vector。根据 3.6.2/2 成员 h_ 具有无序初始化。我将如何更改它以确保它已订购初始化?我希
我正在实现一个玩具调度程序,它读取进程规范(例如到达时间、总运行时间)的输入文件,然后根据随机 io/cpu 突发调度进程。 文件格式 Arrival time, total CPU time, CP
我目前正在使用 python 2.7 requests 库,并且不支持有序 header 。我可以为 post 和 get 放置有序数据(如有序字典),但根本不支持标题。甚至在 python 3 中也
我正在使用来自 google guava 的 ConcurrentHashMap(通过 MapMaker),但该实现未排序。google guava 中有 ConcurrentSkipListMap,
我有一个旧应用程序,其中使用 ConcurrentHashMap。现在我们知道并发HasMap 是无序的,但是需要读取最初插入的对象。我已经在生产中使用了一段时间的代码,因此我正在寻找快速替代方案来替
最近我开始使用 .NET Core 2.1 开发一个新项目,我决定使用 SOLID 原则并创建一个漂亮的项目结构。 这是一个 Web API 项目。一切正常我使用了很多依赖注入(inject),大部分
我是一名优秀的程序员,十分优秀!