- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
假设我们想要一个系统保持最近一小时内出现在推文中的前 k 个频繁词。如何设计?
我可以想出 hashmap、heap、log 或 MapReduce,但我找不到一种非常有效的方法来做到这一点。
其实这是面试中的一个问题。
首先,我使用哈希图来计算每个单词的频率。我还记录了日志,随着时间的流逝,我可以倒数最旧的词频。
然后我保留了一个长度为 K(Top K 数组)和一个数字 N 的条目数组,它是数组中最小的计数数字。
每次有新词出现时,我更新计数hashmap并得到这个新词的计数数。如果它大于N,我会找到这个词是否在数组中。如果是,我会更新数组中的条目。如果没有,我删除数组中最小的条目并将这个新单词插入其中。 (相应地更新 N)
这是问题所在,我的方法无法处理删除。我可能需要迭代整个计数哈希图来找到新的前 K。
另外,正如面试官所说,系统应该很快就能得到结果。我想到了几台机器一起工作,每台机器都需要一些话。然而,如何组合结果也成为一个问题。
最佳答案
如果单词没有加权(权重 0 和 1 除外),则可以使用 O(N) 辅助存储导出一个简单的数据结构,该数据结构按顺序维护单词计数,其中 N
是在滑动窗口中遇到的唯一词的数量(在示例中为一小时)。所有操作(加词、过期词、查找最常用词)都可以在O(1)
中进行。时间。由于任何准确的解决方案都需要保留滑动窗口中的所有唯一词,因此该解决方案虽然每个词的常数因子不小,但并不是渐进变差。
解决方案的关键是任何给定单词的计数只能增加或减少 1,并且所有计数都是整数。因此,可以维护一个双向链接的计数列表(按顺序),其中列表中的每个节点都指向具有该计数的单词的双向链接列表。此外,单词列表中的每个节点都指向相应的计数节点。最后,我们维护一个哈希图,它允许我们找到与给定单词对应的节点。
最后,为了在生命结束时衰减单词,我们需要保留来自滑动窗口的整个数据流,其大小为 O(N')
。哪里N'
是滑动窗口期间遇到的单词总数。这可以存储为单链表,其中每个节点都有一个时间戳和一个指向单词列表中唯一单词的指针。
当一个词遇到或过期时,需要调整它的计数。由于计数只能递增或递减 1,因此调整始终包括将单词移动到相邻的计数节点(可能存在也可能不存在);由于计数节点存储在一个已排序的链表中,因此可以及时找到或创建相邻节点O(1)
.此外,通过从最大值向后遍历计数列表,始终可以在恒定时间内跟踪最流行的单词(和计数)。
如果这不明显,这里是给定时间点数据结构的粗略 ascii 艺术图:
Count list word lists (each node points back to the count node)
17 a <--> the <--> for
^
|
v
12 Wilbur <--> drawing
^
|
v
11 feature
Wilbur
.这将把它的数量增加到 13;我们可以从
12
的成功中看出不是
13
13
需要创建计数节点并将其插入计数列表。在我们这样做之后,我们删除
Wilbur
从它当前的词表中,将其放入新创建的与新计数节点相关联的空词表中,并更改
Wilbur
中的计数指针。指向新的计数节点。
drawing
过期,所以它的新计数将是11。从
12
的前身可以看出。是
11
不需要创建新的计数节点;我们只需删除
drawing
从它的单词列表中,并将其附加到与
11
相关联的单词列表中,在我们这样做时修复它的计数指针。现在我们注意到与
12
相关的词表是空的,所以我们可以删除
12
从计数列表中计数节点并将其删除。
0
计数节点,它不存在,我们只是删除单词节点。如果遇到新词,我们只需将该词添加到
1
计数节点,如果它不存在,则创建该计数节点。
k
词可以通过合并顶部找到
k
来自每台机器的单词;散列分配保证来自每台机器的词集是不同的。
关于algorithm - 设计一个实时保持前k个频繁词的系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21692624/
我有以下案例要解决。 在短语中突出显示关键字的 Javascript 方法。 vm.highlightKeywords = (phrase, keywords) => { keywords =
我要匹配文本中的所有美元符号单词。例如,"Hello $VARONE this is $VARTWO"可以匹配$VARONE和$VARTWO。 正则表达式应该是/\$(\w+)/g,但是当我在Dart
在 redux 中,对于将状态作为参数、更改状态并返回新状态的特定操作,您会在 switch 语句中调用什么函数? function reducer(state = DEFAULT_STATE, ac
在 MySQL 5.1 中,我将一个字段命名为“Starting”。但是,每次我使用 SQL 查询时,它都会说无效的 SQL 语法。经过一些谷歌搜索,我发现 STARTING 是一个保留的 SQL 词
我必须使用函数 isIn(secretWord,lettersGuessed) 从列表中找到密码。在下面发布我的代码。 def isWordGuessed(secretWord, lettersGue
一段时间以来,我一直无法找到两个字符串中最长的常用词。首先我想到了用“isspace”函数来做这件事,但不知道如何找到一个常用词。然后我想到了“strcmp”,但到目前为止我只能比较两个字符串。我在想
我目前正在尝试制作一种“单词混合器”:对于两个给定的单词和指定的所需长度,程序应返回这两个单词的“混合”。然而,它可以是任何类型的混合:它可以是第一个单词的前半部分与第二个单词的后半部分相结合,它可以
如果 After 之后(逗号之前)没有 -ing 词,我想匹配它。所以 After 和逗号之间不应该有 -ing 词。 所需的匹配项(粗体): After sitting down, he began
我一直在试验 Stanford NLP 工具包及其词形还原功能。我很惊讶它如何使一些词词形还原。例如: depressing -> depressing depressed -> depressed
js 并尝试根据 [这里] 中的示例代码来做词云:https://github.com/jasondavies/d3-cloud .我想做的是单词的字体大小是基于数组中单词的频率。例如我有 [a,a,
我正在处理一个文本分类问题(在法语语料库上),并且正在试验不同的词嵌入。我对 ConceptNet 提供的内容非常感兴趣,所以我决定试一试。 我无法为我的特定任务找到专门的教程,所以我听取了他们的建议
当我在文本中搜索时,我输入 C-s,然后输入单词,然后一次又一次地输入 C-s,光标前进到找到的单词的下一个位置。问题是,一旦我转到下一个单词,我无法在按钮处编辑迷你缓冲区中的搜索单词,如果我按 Ba
我正在尝试按照以下结构运行这个 maven Hello Word: ├── pom.xml └── src └── Main.java 使用pom.xml设置: 4.0.0
所以,从我可以开始的.. 我正在使用 OCR。该脚本非常适合我的需要。它检测单词的准确性对我来说还可以。 这是结果:附加图像 100% 准确。 from PIL import Image import
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想要改善这个问题吗?更新问题,以便将其作为on-topi
这是细节,但我想知道为什么会这样。 示例代码: Class klasa = Enum.class; for(Type t : klasa.getGenericInterfaces()) Syst
我在用: var header = ""+ "Export HTML to Word Document with JavaScript"; var footer = ""; /
我有一个程序可以像这样将数据打印到控制台(以空格分隔): variable1 value1 variable2 value2 variable3 value3 varialbe4 value4 编辑:
我有一个程序可以像这样将数据打印到控制台(以空格分隔): variable1 value1 variable2 value2 variable3 value3 varialbe4 value4 编辑:
最近我在查看与goliath相关的一些代码时,偶然在Ruby代码中看到了这个词use。 , 中间件等。看起来它不同于include/extend, and require. 有人可以解释为什么存在这个
我是一名优秀的程序员,十分优秀!