- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
也许我没有在寻找/搜索正确的关键字(我找不到解决方案)。
我正在尝试以节省空间的方式计算数字列表(不断更新)的中位数。
要计算均值,有一个很好的方法,即记住列表中元素的数量并对旧均值加权。例如(伪代码):
// Initialize values
noList = [8,10,4,6]
mean = 0
noItems = 0
// Now we want to update the mean continually with further values.
for (value : noList) {
mean = (noItems / (noItems + 1)) * mean + (1 / (noItems + 1)) * value
noItems = noItems + 1
}
// After iteration 1: wholeList = [8] ; mean = 8 ; noItems = 1
// After iteration 2: wholeList = [8,10] ; mean = 9 ; noItems = 2
// After iteration 3: wholeList = [8,10,4] ; mean = 7.33; noItems = 3
// After iteration 4: wholeList = [8,10,4,6]; mean = 7 ; noItems = 4
问题:是否有类似的(节省空间的)方法来计算中位数?
已更新我更新了问题(感谢@WillemVanOnsem)。我不仅在寻找不断更新中位数,而且还在寻找一种节省空间的方法。根据他的提示,我们可以保留两个数据结构。
Example:
// 1) We have a list for which we want to find the median.
noList = [9,10,4,6,13,12]
// 2) We devide it into two list or datastructures (additionally we sort it).
smallerList = [4,6,9]
biggerList = [10,12,13]
// 3) Both list have the same length, so the median is between the last element of smallerList und the first element of biggerList.
median = (9 + 10) / 2 = 9.5
// 4) Next, we add a further element and want to update our median.
// We add the number 5 to our datastructures. So the new list is:
noList = [9,10,4,6,13,12,5]
// 5) Obviously 5 is smaller than our current median of 9.5. So we insert it in a sorted way into smallerList:
smallerList = [4,5,6,9]
biggerList = [10,12,13]
// 6) Now length(smallerList) > length(biggerList), So, we know, that the updated median should be the last element of smallerList.
median = 9
// 7) Next, we add a further element and want to update our median.
// We add the number 2 to our datastructures. So the new list is:
noList = [9,10,4,6,13,12,5,2]
// 8) Obviously 2 is smaller than our current median of 9. So we insert it again in a sorted way into smallerList:
smallerList = [2,4,5,6,9]
biggerList = [10,12,13]
// 9) Now the length of smallerList is much bigger than the length of biggerList and we need to "balance" our list by taking one element from one list and inserting it into the other list.
// We remove the element 9 from smallerList and insert it into biggerList.
smallerList = [2,4,5,6]
biggerList = [9,10,12,13]
// 10) Both list have the same length, so the median is between the last element of smallerList und the first element of biggerList.
median = (6 + 9) / 2 = 7.5
希望,这能说明问题。我猜,这是你的暗示 (@WillemVanOnsem)。
是的,这可能会回答我最初的问题...但此解决方案的问题是,两个列表(smallerList 和 biggerList)可能会增长到相当大的规模。假设我们有一个 10^18 数字流,我们想在不超出内存的情况下找到所有数字的中位数。如何以节省空间的方式解决这个问题?
最佳答案
如果不记住您见过的所有数字,就无法做到这一点,因为在任何时候,您过去见过的任何数字都可能成为 future 的中位数。
如果你到目前为止已经看到了 n 个数字,那么对于任何 i,其中的 i 最小的一个可能成为中位数:
如果 i > n/2,那么如果接下来的 2i - n 个数字更大,就会发生这种情况。
如果 i <= n/2,那么如果接下来的 n - 2i + 1 个数字更小,就会发生这种情况。
<关于algorithm - 不断更新中位数+空间效率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56621351/
我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。 问题如下:- 隐私和匿名化 马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意
我最近接受了一次面试,面试官给了我一些伪代码并提出了相关问题。不幸的是,由于准备不足,我无法回答他的问题。由于时间关系,我无法向他请教该问题的解决方案。如果有人可以指导我并帮助我理解问题,以便我可以改
这是我的代码 public int getDist(Node root, int value) { if (root == null && value !=0) return
就效率而言,Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少? 我知道这与具体的实现和硬件密切相关,但对于一般情况应该有某种指南或某人的一些实验结果。 在网上搜索了一下,问了一些他们认为
我想学习一些关于分布式算法的知识,所以我正在寻找任何书籍推荐。我对理论书籍更感兴趣,因为实现只是个人喜好问题(我可能会使用 erlang(或 c#))。但另一方面,我不想对算法进行原始的数学分析。只是
我想知道你们中有多少人实现了计算机科学的“ classical algorithms ”,例如 Dijkstra's algorithm或现实世界中的数据结构(例如二叉搜索树),而不是学术项目? 当有
我正在解决旧编程竞赛中的一些示例问题。在这个问题中,我们得到了我们有多少调酒师以及他们知道哪些食谱的信息。制作每杯鸡尾酒需要 1 分钟,我们需要使用所有调酒师计算是否可以在 5 分钟内完成订单。 解决
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
我开始学习 Nodejs,但我被困在中间的某个地方。我从 npm 安装了一个新库,它是 express -jwt ,它在运行后显示某种错误。附上代码和错误日志,请帮助我! const jwt = re
我有一个证书,其中签名算法显示“sha256rsa”,但指纹算法显示“sha1”。我的证书 SHA1/SHA2 的标识是什么? 谢谢! 最佳答案 TL;TR:签名和指纹是完全不同的东西。对于证书的强度
我目前在我的大学学习数据结构类(class),并且在之前的类(class)中做过一些算法分析,但这是我在之前的类(class)中遇到的最困难的部分。我们现在将在我的数据结构类(class)中学习算法分
有一个由 N 个 1x1 方格组成的区域,并且该区域的所有部分都是相连的(没有任何方格无法到达的方格)。 下面是一些面积的例子。 我想在这个区域中选择一些方块,并且两个相邻的方块不能一起选择(对角接触
我有一些多边形形状的点列表,我想将其包含在我页面上的 Google map 中。 我已经从原始数据中删除了尽可能多的不必要的多边形,现在我剩下大约 12 个,但它们非常详细以至于导致了问题。现在我的文
我目前正在实现 Marching Squares用于计算等高线曲线,我对此处提到的位移位的使用有疑问 Compose the 4 bits at the corners of the cell to
我正在尝试针对给定算法的约束满足问题实现此递归回溯函数: function BACKTRACKING-SEARCH(csp) returns solution/failure return R
是否有包含反函数的库? 作为项目的一部分,我目前正在研究测向算法。我正在使用巴特利特相关性。在 Bartlett 相关性中,我需要将已经是 3 次矩阵乘法(包括 Hermitian 转置)的分子除以作
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
问题的链接是UVA - 1394 : And There Was One . 朴素的算法是扫描整个数组并在每次迭代中标记第 k 个元素并在最后停止:这需要 O(n^2) 时间。 我搜索了一种替代算法并
COM 中创建 GUID 的函数 (CoCreateGUID) 使用“分散唯一性算法”,但我的问题是,它是什么? 谁能解释一下? 最佳答案 一种生成 ID 的方法,该 ID 具有一定的唯一性保证,而不
在做一个项目时我遇到了这个问题,我将在这个问题的实际领域之外重新措辞(我想我可以谈论烟花的口径和形状,但这会使理解更加复杂).我正在寻找一种(可能是近似的)算法来解决它。 我有 n 个不同大小的容器,
我是一名优秀的程序员,十分优秀!