python - 如何使用 Spark 查找中位数和分位数-6ren

python - 如何使用 Spark 查找中位数和分位数

转载作者：IT老高更新时间：2023-10-28 20:29:28

25

4

如何使用分布式方法、IPython 和 Spark 找到整数的 RDD 的中位数？ RDD 大约有 700,000 个元素，因此太大而无法收集和找到中位数。

这个问题和这个问题类似。但是，问题的答案是使用 Scala，我不知道。

How can I calculate exact median with Apache Spark?

使用 Scala 答案的思维，我正在尝试用 Python 编写类似的答案。

我知道我首先要对 RDD 进行排序。我不知道怎么。我看到了 sortBy(按给定的 keyfunc 对这个 RDD 进行排序)和 sortByKey(对这个 RDD 进行排序，即假设由(键，值)对组成。)方法。我认为两者都使用键值，而我的 RDD 只有整数元素。

首先，我正在考虑做 myrdd.sortBy(lambda x: x)？
接下来我会找到rdd的长度(rdd.count())。
最后，我想在 rdd 的中心找到一个或 2 个元素。我也需要这种方法的帮助。

编辑:

我有个主意。也许我可以索引我的 RDD 然后 key = index 和 value = element。然后我可以尝试按值排序？我不知道这是否可能，因为只有一个 sortByKey 方法。

最佳答案

正在进行的工作

SPARK-30569 - 添加调用 percentile_approx 的 DSL 函数

Spark 2.0+:

您可以使用实现 Greenwald-Khanna algorithm 的 approxQuantile 方法:

Python:

df.approxQuantile("x", [0.5], 0.25)

斯卡拉:

df.stat.approxQuantile("x", Array(0.5), 0.25)

最后一个参数是相对误差。数字越小，结果越准确，计算成本越高。

从 Spark 2.2 ( SPARK-14352 ) 开始，它支持对多列的估计:

df.approxQuantile(["x", "y", "z"], [0.5], 0.25)

和

df.approxQuantile(Array("x", "y", "z"), Array(0.5), 0.25)

底层方法也可用于 SQL 聚合(全局和摸索)，使用 approx_percentile功能:

> SELECT approx_percentile(10.0, array(0.5, 0.4, 0.1), 100);
 [10.0,10.0,10.0]
> SELECT approx_percentile(10.0, 0.5, 100);
 10.0

Spark <2.0

Python

正如我在评论中提到的那样，它很可能不值得大惊小怪。如果数据像您的情况一样相对较小，那么只需在本地收集和计算中位数:

import numpy as np

np.random.seed(323)
rdd = sc.parallelize(np.random.randint(1000000, size=700000))

%time np.median(rdd.collect())
np.array(rdd.collect()).nbytes

在我几年前的电脑和大约 5.5MB 的内存上大约需要 0.01 秒。

如果数据大得多，排序将是一个限制因素，因此与其获取精确值，不如在本地进行采样、收集和计算。但是如果你真的想使用 Spark，这样的东西应该可以解决问题(如果我没有搞砸任何事情):

from numpy import floor
import time

def quantile(rdd, p, sample=None, seed=None):
    """Compute a quantile of order p ∈ [0, 1]
    :rdd a numeric rdd
    :p quantile(between 0 and 1)
    :sample fraction of and rdd to use. If not provided we use a whole dataset
    :seed random number generator seed to be used with sample
    """
    assert 0 <= p <= 1
    assert sample is None or 0 < sample <= 1

    seed = seed if seed is not None else time.time()
    rdd = rdd if sample is None else rdd.sample(False, sample, seed)

    rddSortedWithIndex = (rdd.
        sortBy(lambda x: x).
        zipWithIndex().
        map(lambda (x, i): (i, x)).
        cache())

    n = rddSortedWithIndex.count()
    h = (n - 1) * p

    rddX, rddXPlusOne = (
        rddSortedWithIndex.lookup(x)[0]
        for x in int(floor(h)) + np.array([0L, 1L]))

    return rddX + (h - floor(h)) * (rddXPlusOne - rddX)

还有一些测试:

np.median(rdd.collect()), quantile(rdd, 0.5)
## (500184.5, 500184.5)
np.percentile(rdd.collect(), 25), quantile(rdd, 0.25)
## (250506.75, 250506.75)
np.percentile(rdd.collect(), 75), quantile(rdd, 0.75)
(750069.25, 750069.25)

最后让我们定义中位数:

from functools import partial
median = partial(quantile, p=0.5)

到目前为止一切顺利，但在没有任何网络通信的本地模式下需要 4.66 秒。可能有办法改善这一点，但为什么还要麻烦呢？

语言无关(Hive UDAF):

如果您使用 HiveContext，您也可以使用 Hive UDAF。具有整数值:

rdd.map(lambda x: (float(x), )).toDF(["x"]).registerTempTable("df")

sqlContext.sql("SELECT percentile_approx(x, 0.5) FROM df")

具有连续值:

sqlContext.sql("SELECT percentile(x, 0.5) FROM df")

在 percentile_approx 中，您可以传递一个附加参数来确定要使用的记录数。

关于python - 如何使用 Spark 查找中位数和分位数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31432843/

25

4

0

文章推荐： php - FastCGI C++ 与脚本语言 (PHP/Python/Perl)

文章推荐： java - IO 的 GoF 装饰器模式用例和示例

文章推荐： java - UUID.randomUUID() 是否适合用作一次性密码？

c - 计算正整数区间内 base2 位数(位数)总和的有效算法
假设我得到了两个整数 a, b 其中 a 是一个正整数并且小于 b 。我必须找到一种有效的算法，它会在 [a, b] 区间内给出 base2 位数(位数)的总和。例如，在区间 [0, 4] 中，数字之
vba - 基于标准的自动过滤列 - 位数
到目前为止我已经尝试过不同的 autofilter但非选项似乎对我有用，我有许可证号列，其中应该只有 10 位数字，并且 autofilter我正在尝试查找少于或多于 10 位数字的条目，我将该列转
javascript - 是否验证 3 位数
谁能告诉我检查输入的数字是否为 3 位数字的正则表达式...它也不应该允许字母.... 最佳答案 3 个数字的正则表达式为 ^[0-9]{3}$ 或 ^\d{3}$ 关于javascript - 是否
Sql - 使所有项目的长度为 3 位数
我不知道这在 SQL Server 中是否可行，但我得问问它 ;-) 我在表 work 中有一个名为 duty 的列。假设 Work.Duty 包含不同的数字，例如 (1, 2, 3, 20, 22
java - 将输入的长度限制为 x 位数
我正在运行一个我创建的java程序，它存储用户输入的数据。具体来说，有 4 个数组列表，分别是songName、songArtist、songYear 和songAlbum。我有一个“songYear
Sql - 使所有项目的长度为 3 位数
我不知道这在 SQL Server 中是否可行，但我得问问它 ;-) 我在表 work 中有一个名为 duty 的列。假设 Work.Duty 包含不同的数字，例如 (1, 2, 3, 20, 22
C++ 半偶数四舍五入到 x 位数
给定一个 float ，我想使用半偶数舍入将结果四舍五入到小数点后四位，即四舍五入到下一个偶数的方法。例如，当我有以下代码片段时: #include #include int main(){
javascript - 在不运行小程序的情况下确定客户端计算机上的 jvm 位数
有没有一种方法可以在不使用小程序的情况下确定客户端计算机上的 jvm 位数？我确实看到了这个link但这决定了 jvm 版本而不是位数。提前致谢最佳答案您可以尝试确定浏览器位数 - 32 位 ja
c - 2个二进制数的公共(public)位数
我正在编写一个程序来计算给定数字的两个二进制表示之间的共同位数。我写的代码是: int common_bits(int a, int b) { static long binaryNo1,binary
javascript - 如何使表格单元格的最小宽度为 3 位数？
如何使表格中的每个单元格的最小宽度为 3 位数字并且不会更大？现在我正在对 min-width 进行硬编码，但我不喜欢对值进行硬编码，因为将来我可能想更改字体。如果需要 Javascript 也没关系
java - 匹配单词后跟空格和 N 位数
我正在尝试匹配后跟一个空格或制表符和 5 个数字的单词。例如 some noise text off 12345 some noise text again. 另一个例子是: Some noise t
c# - IFormatProvider 从double到string的科学转换——位数
我在从 double 到 string 的转换时遇到问题。我要转换: double value: 0.0772486324655191 string value: 0.077248632465519
java - 如何在 Java 中旋转 128 位数
我正在尝试实现一个使用 128 位 key 的密码。 key 计划的一部分是将 key 向右旋转 29 位，但我不确定该怎么做，因为 Java 中没有单一数据类型可以保存整个 key 。我将它存储在两
c++ - 使用 AVX2 指令左移 128 位数
我正在尝试在 AVX2 中对 128 位数进行左旋转。由于没有直接的方法，我尝试使用左移和右移来完成我的任务。这是我执行相同操作的代码片段。 l = 4; r = 4
c - 将 int 减少到 2 位数
我有一个 int，它的值类似于 1235 和 12890。我只想要这个 int 的前 2 位数字。我怎样才能提取它？想了半天，想不出什么办法。最佳答案减少数字，直到只剩下两位数: while (
linux - Grep\+ 符号后的第一个(2 位数)数字
TL:DR 我想要紧跟“+”符号的任何行上的前两个数字的语法。给定以下文本(来自熟悉的实用程序): power_meter-acpi-0 Adapter: ACPI interface power1
c++ - 科学 ofstream 中的指数只有 2 位数
因此根据 cplusplus.com，当您通过以下方式将输出流的格式标志设置为科学记数法时 of.setf(ios::scientific) 您应该在指数中看到 3 位加号和一个符号。但是，我的输出似
Javascript 将 getHours 更改为 2 位数
这个问题在这里已经有了答案: How can I pad a value with leading zeros? (77 个答案) 关闭 9 年前。如果小时数小于 10 小时，则小时数通常以个位数
javascript - 如何将我的 moment js 持续时间值限制为仅 2 位数？
我正在使用 moment.js使用根据距离/速度计算的日期时间。我也在使用 moment duration format plugin .当我将值传递给 moment.duration 然后对其进行格
c# - .NET Float Precision 似乎是 9 位数？
我正在将一个应用程序从 .NET 移植到 Mono 运行时，并且在代码中的某个位置我可以看到一个 float 具有值 158136.422。我对 float 的理解是它是 7 位精度，那么这个数字如何

首页

博学

6Ren·AI

商城