- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在学习 Python Pandas 的不同方面,我偶然发现了 groupby-objects 的中值函数在用于分箱数据时的一些奇怪行为。
示例代码:
import pandas as pd
d = pd.DataFrame([1,2,5,6,9,3,6,5,9,7,11,36,4,7,8,25,8,24,23])
b = [0,5,10,15,20,25,30,35,40,45,50,55]
print d.groupby(pd.cut(d[0],b)).count()
print d.groupby(pd.cut(d[0],b)).mean()
print d.groupby(pd.cut(d[0],b)).median()
计数输出:
(0, 5] 6
(5, 10] 8
(10, 15] 1
(15, 20] 0
(20, 25] 3
(25, 30] 0
(30, 35] 0
(35, 40] 1
(40, 45] 0
(45, 50] 0
(50, 55] 0
均值输出:
(0, 5] 3.333333
(5, 10] 7.500000
(10, 15] 11.000000
(15, 20] NaN
(20, 25] 24.000000
(25, 30] NaN
(30, 35] NaN
(35, 40] 36.000000
(40, 45] NaN
(45, 50] NaN
(50, 55] NaN
中位数的输出:
(0, 5] 3.5
(5, 10] 7.5
(10, 15] 11.0
(15, 20] 18.0
(20, 25] 24.0
(25, 30] 30.5
(30, 35] 30.5
(35, 40] 36.0
(40, 45] 18.0
(45, 50] 18.0
(50, 55] 18.0
所有空箱子都装满了数字 18 和 30.5,这在这里没有实际意义。
当我改变原始列表中的一个数字时,最后三个数字也随机变化,然后我得到这样的输出:
(0, 5] 3.500000e+00
(5, 10] 7.500000e+00
(10, 15] 1.100000e+01
(15, 20] 1.800000e+01
(20, 25] 2.450000e+01
(25, 30] 3.050000e+01
(30, 35] 3.050000e+01
(35, 40] 3.600000e+01
(40, 45] 3.814316e+228
(45, 50] 3.814316e+228
(50, 55] 3.814316e+228
更改列表中的另一个数字会再次输出末尾的数字 18。
这只是一个错误吗?
这种行为是否有正当理由?
我在这里做错了或解释错了吗?
现在我需要使用均值函数的 NaN 输出来过滤掉空的中值区间,但我认为中值应该像对待均值一样对待空值。
最佳答案
我很确定这是一个错误:
考虑:
gb = d.groupby(pd.cut(d[0],b))
gb.median()
但是:
gb.get_group('(0, 5]').median()
0 3.5
dtype: float64
和:
gb.get_group('(15, 20]').median()
KeyError Traceback (most recent call last)
<ipython-input-314-e1f4657d9a2d> in <module>()
----> 1 gb.get_group('(15, 20]').median()
/Users/me/anaconda/lib/python2.7/site-packages/pandas/core/groupby.pyc in get_group(self, name, obj)
585 inds = self._get_index(name)
586 if not len(inds):
--> 587 raise KeyError(name)
588
589 return obj.take(inds, axis=self.axis, convert=False)
KeyError: '(15, 20]'
当组甚至不存在时,它计算 groupby
对象的 median
。
关于python - Pandas groupby-median 函数用随机数填充空箱,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38323362/
我已经在 python 中编写了这个中位数算法的实现,但它似乎没有输出正确的结果,而且它对我来说似乎也不是线性复杂度,知道我在哪里偏离轨道了吗? def select(L): if len(L
我正在使用中位数中位数枢轴方法实现第 k 个选择算法。具体来说,我正在关注 pseudocode listed here. .但是,我的代码崩溃了(下面讨论的错误),我知道它崩溃的原因,但我不明白我能
我想将中位数算法应用于 35 个元素的列表 3 7 4 6 9 12 11 4 5 6 8 2 7 11 23 12 4 7 3 9 8 4 5 6 3 2 1 9 9 3 4 5 6 1 14 T(
作为家庭作业,我被分配编写算法,从无序数字集中找到第 k 个有序数字。作为一种方法,提出了算法中位数的中位数。 不幸的是,我的尝试失败了。如果有人发现错误 - 请纠正我。 private int fi
我已经明白了 我知道中位数算法的中位数(我将表示为 MoM)是一个高常数因子 O(N) 算法。它找到 k 组(通常为 5)的中位数,并将它们用作下一次迭代的集合以查找的中位数。找到它后的基准将在原始集
我的 Java 代码有问题...我已经盯着它看了 10 多个小时,但我就是找不到我犯的错误。 我的任务是实现“中位数的中位数”算法,将数组拆分为最大长度为 5 的数组并查找它们的中位数。然后查找这些中
我想通过以下示例了解“中位数的中位数”算法: 我们有 45 个不同的数字,分为 9 组,每组有 5 个元素。 48 43 38 33 28 23 18 13 8 49 44 39 34 29 24 1
CLRS 第 3 版第 9.3 节“最坏情况线性时间的选择”讨论了“选择”算法(由于 Blum、Floyd、Pratt、Rivest 和 Tarjan,有时称为 BFPRT 算法)用于查找 a 的中值
我正在搜索 John Tukey 算法,该算法使用 R 在我的线性回归上计算“阻力线”或“中值-中值线”。 邮件列表上的一位学生用这些术语解释了这个算法: "The way it's calculat
我的问题正如我在标题中指定的那样:test_median.cpp: In function ‘int main()’: test_median.cpp:26:27: error: cannot con
我正在实施quicksort,我希望将枢轴设置为中位数或三位数。这三个数字是第一个元素,中间元素和最后一个元素。 我能不能找到中位数呢?比较? median(int a[], int p, int r
自从最新的 R 更新以来,我得到了 Note summary.xmlImport: no visible global function definition for ‘median’ 在 CRAN
我使用 Medians of Medians 实现了第 nth_number 选择算法。在 wikipedia ,它指出它的空间复杂度是 O(1) 我必须将中位数存储在一个临时数组中,以便在这些中位数
中位数的中位数 方法在quicksort 类型的分区算法中非常流行,可以产生相当好的主元,从而均匀地分区数组。其逻辑在维基百科中给出为: The chosen pivot is both less t
我正在尝试将使用第一个元素作为基准的快速排序程序修改为使用三个中位数(第一个、最后一个和中间元素的中位数)作为基准的快速排序。然而,到目前为止,我的实现在测试时给出了 ArrayIndexOutOfB
我有一个关于 numpy.median() 在使用 numpy.ma.masked_array() 创建的屏蔽数组上的行为的问题。 正如我从调试自己的代码中了解到的那样,numpy.median()
给定两个具有唯一整数元素的数组,即元素在两个数组内或两个数组之间重复: 这是我编写的递归算法,需要帮助来破译我收到的错误消息。 public class Median { public static
在屏蔽数组的情况下,我对 numpy.median 的输出有点困惑。这是一个简单的示例(假设导入了 numpy - 我的版本是 1.6.2): >>> a = [3.0, 4.0, 5.0, 6.0,
有关问题的详情如下:。我期待中位数来一些价值,但它是未来0每一次,我总是得到一个不正确的模式。
有关问题的详情如下:。我期待中位数来一些价值,但它是未来0每一次,我总是得到一个不正确的模式。
我是一名优秀的程序员,十分优秀!