python - 从数组中选择最小的 n 个元素的最快方法是什么？-6ren

python - 从数组中选择最小的 n 个元素的最快方法是什么？

转载作者：太空宇宙更新时间：2023-11-03 14:53:40

28

4

我在写 quick select algorithm 时很开心使用 numba 并希望分享结果。

考虑数组x

np.random.seed([3,1415])
x = np.random.permutation(np.arange(10))
x

array([9, 4, 5, 1, 7, 6, 8, 3, 2, 0])

拉取最小的 n 个元素的最快方法是什么。

我试过了
np.partition

np.partition(x, 5)[:5]

array([0, 1, 2, 3, 4])

pd.Series.nsmallest

pd.Series(x).nsmallest(5).values

array([0, 1, 2, 3, 4])

最佳答案

一般来说，我不建议尝试打败 NumPy。很少有人可以竞争(对于长数组)，找到更快的实现就更少了。即使速度更快，也可能不会快 2 倍。所以它很少值得。

但是我最近尝试自己做这样的事情，所以我可以分享一些有趣的结果。

这不是我自己想出来的。我的方法基于 numbas (re-)implementation of np.median . 他们可能知道他们在做什么。

我最终得到的是:

import numba as nb
import numpy as np

@nb.njit
def _partition(A, low, high):
    """copied from numba source code"""
    mid = (low + high) >> 1
    if A[mid] < A[low]:
        A[low], A[mid] = A[mid], A[low]
    if A[high] < A[mid]:
        A[high], A[mid] = A[mid], A[high]
        if A[mid] < A[low]:
            A[low], A[mid] = A[mid], A[low]
    pivot = A[mid]

    A[high], A[mid] = A[mid], A[high]

    i = low
    for j in range(low, high):
        if A[j] <= pivot:
            A[i], A[j] = A[j], A[i]
            i += 1

    A[i], A[high] = A[high], A[i]
    return i

@nb.njit
def _select_lowest(arry, k, low, high):
    """copied from numba source code, slightly changed"""
    i = _partition(arry, low, high)
    while i != k:
        if i < k:
            low = i + 1
            i = _partition(arry, low, high)
        else:
            high = i - 1
            i = _partition(arry, low, high)
    return arry[:k]

@nb.njit
def _nlowest_inner(temp_arry, n, idx):
    """copied from numba source code, slightly changed"""
    low = 0
    high = n - 1
    return _select_lowest(temp_arry, idx, low, high)

@nb.njit
def nlowest(a, idx):
    """copied from numba source code, slightly changed"""
    temp_arry = a.flatten()  # does a copy! :)
    n = temp_arry.shape[0]
    return _nlowest_inner(temp_arry, n, idx)

我在计时之前加入了一些热身电话。预热是为了让编译时间不包括在计时中:

rselect(np.random.rand(10), 5)
nlowest(np.random.rand(10), 5)

由于计算机速度(慢得多)，我稍微更改了元素数量和重复次数。但结果似乎表明我(好吧，numba 开发人员做到了)已经打败了 NumPy:

results = pd.DataFrame(
    index=pd.Index([100, 500, 1000, 5000, 10000, 50000, 100000, 500000], name='Size'),
    columns=pd.Index(['nsmall_np', 'nsmall_pd', 'nsmall_pir', 'nlowest'], name='Method')
)

rselect(np.random.rand(10), 5)
nlowest(np.random.rand(10), 5)

for i in results.index:
    x = np.random.rand(i)
    n = i // 2
    for j in results.columns:
        stmt = '{}(x, n)'.format(j)
        setp = 'from __main__ import {}, x, n'.format(j)
        results.set_value(i, j, timeit(stmt, setp, number=100))

print(results)

Method   nsmall_np nsmall_pd  nsmall_pir      nlowest
Size                                                 
100     0.00343059  0.561372  0.00190855  0.000935566
500     0.00428461   1.79398  0.00326862   0.00187225
1000    0.00560669   3.36844  0.00432595   0.00364284
5000     0.0132515  0.305471   0.0142569    0.0108995
10000    0.0255161  0.340215    0.024847    0.0248285
50000     0.105937  0.543337    0.150277     0.118294
100000      0.2452  0.835571    0.333697     0.248473
500000     1.75214   3.50201     2.20235      1.44085

关于python - 从数组中选择最小的 n 个元素的最快方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44338676/

28

4

0

文章推荐： c# - 当我单击 CheckBox 时，Wpf PasswordBox 必须显示字符

文章推荐： java - 无法找到请求目标的有效证书路径 -> CAS 登录后

文章推荐： python - 如何从python中的数据透视表计算最大值

javascript - 元素 = $(元素);对象预期错误？
在开发中的网页上，我在 IE 上遇到此错误 element = $(element); 此代码位于prototype.js 预期对象如何消除此错误。更新: 现场也使用了 jQuery。最佳答
arrays - 如果元素本身是数组，合并两个数组(元素 + 元素)的最佳方法是什么
我有两个大小相同的嵌套数组: Array1 =[[1, 2], [], [2, 3]] Array2= [[1, 4], [8, 11], [3, 6]] 我需要将它们合并到一个数组中，如下所示: A
jQuery 不适用于
元素，但不适用于元素
我有一些 jQuery 代码，当单击具有特定 ID 的项目时运行。当 ID 是的一部分时，它就可以工作。元素，但当它位于中时则不然元素。为什么会这样呢？我想使用 an，因为如果用户关闭了 Ja
html - 如何制作 flex 元素 block 元素？
Flex-box 规范 3声明 flex 元素不是 block 容器: A flex item establishes a new formatting context for its content
javascript - jquery 在有序堆栈中添加 not-in-dom 元素(in-dom 元素)
我遇到了一个意想不到的问题。 HTML JS $(function() { var $divs = $('.myDiv'); // create new div not in
javascript - 制作
元素 'active' 而不是元素
我使用 Bootstrap 和 Ember.js 得到了一个无序列表。每个列表项都是一个显示新帖子的链接，每当您单击该链接时，Ember 都会添加类 active默认情况下。我正在使用 Bootstr
javascript - 循环遍历 DOM 元素，包括 span 元素
我正在尝试让一个函数正常工作，但运气不佳，所以我想向 Stackoverflow 智囊团提出一个新手问题! 基本上，我有一个表单，并且循环遍历所有元素以查看是否存在自定义数据属性。如果存在，则保持该元
arrays - 是否有内置函数来映射非 nil 元素，并删除数组的 nil 元素？
我想映射一个可选数组，删除那些 nil 值，并使用另一个函数映射非 nil 值。我知道我可以通过使用 compactMap 然后使用常规 map 来实现这一点，但我只想遍历数组一次。我为此实现了一
jquery - 定位 li 元素，除非前面有非 li 元素
我如何定位 li 元素，除非它们出现在之后元素？换句话说，我想针对步骤而不是注释。我尝试向 OL 添加一个我想从选择中排除的类，但我想出的代码不起作用。 (顺便说一句，重构 html 不是一种选
asp.net - 元素 > system.webServer' 有无效的子元素 > 元素 'rewrite'
Warning 1 The element 'system.webServer' has invalid child element 'rewrite'. List of possible eleme
JavaScript 从非结束节点 HTML 元素(例如 LI 元素)获取文本值
我正在尝试编写一个脚本，该脚本将遍历 HTML 源并创建 DOM 的 JSON 文件，然后使用 d3.js 在 TreeView 中显示该文件。我遇到的问题是不仅希望显示元素(TITLE、P、LI 等
jQuery SlideUp 元素 A 如果可见，则 SlideDown 元素 B
我有以下 HTML 表单:- Option 1 Option 2
javascript - 选择 HTML 元素 Jquery 之后的下一个 span 元素
我试图在选定的 HTML 元素之后选择下一个具有类名 slider-value 的 span 元素。我尝试了多种解决方案，但没有一个有效。我可以通过 id 选择它，但我不希望那样做使代码冗余。 $(
javascript - innerHTML 适用于 body 元素，但不适用于 p 元素
如果电子邮件地址无效，我想在屏幕上显示一条消息“请输入有效的电子邮件地址”。 body 元素的innerHTML 语句工作正常，但我用于p 元素的innerHTML 语句不起作用。有一次，当我测试它
javascript - jQuery 显示隐藏的 li 元素，然后隐藏可见的 li 元素
以下 jQuery 代码调用 ul 元素，查找元素内的前三个 li 列表项，并隐藏剩余的 li 项目。然后，它附加一个 li 元素，其中显示“显示更多...”，并且在单击时显示之前隐藏的列表项。 (
html - 如何显示一个 h1 元素，旁边有一个内联元素，下面有一个 p 元素？
我问了a question早些时候关于将编辑/删除链接与 h1 元素内联的最佳方法。我能够通过给出的答案实现这一点，但我现在有额外的要求，我需要在 h1 下方显示一个段落并编辑/删除链接。到目前为止
knockout.js foreach 在表中重复 td 元素，但不重复 tr 元素
我使用 MVC 4 和 knockout.js 库版本 2.1.0 显示从服务器检索到的大量文件的表中的以下摘录。 0)"> 正在正确检索数据，
reactjs - 如何在 React 组件中定位 DOM 元素，或者应该避免一起定位 DOM 元素？
我创建了一个脚本，该脚本在鼠标悬停在父容器上时激活，并且应该将其子元素移离鼠标。我目前已经让它工作了，但是代码的某些部分似乎与 REACT 代码应该是什么样子相矛盾。特别是两个部分。我在渲染函数中使
javascript - 断点不适用于 Button 或 div 元素，但适用于 li 元素
我是 JS 新手，正在尝试理解项目 https://github.com/tastejs/todomvc 的代码请参阅屏幕截图，我尝试对 button X 以及其父元素 div 设置断点，但在这两种
html - 检查哪些样式应用于 MVC 5 元素 View 中的 HTML 元素
例如，假设有一个带有奇特颜色的标记: Something written here 使用 Visual Studio 2017 和 MVC 5 元素，有没有办法检查和定位当前应用了哪些样式，以及负责它

首页

博学

6Ren·AI

商城

python - 从数组中选择最小的 n 个元素的最快方法是什么？