python - numpy 中的高效 bin 分配-6ren

python - numpy 中的高效 bin 分配

转载作者：行者123 更新时间：2023-11-28 19:04:24

28

4

我有一个非常大的 1D python 数组 x，其中包含一些重复的数字以及一些相同大小的数据 d。

x = np.array([48531, 62312, 23345, 62312, 1567, ..., 23345, 23345])
d = np.array([0    , 1    , 2    , 3    , 4   , ..., 99998, 99999])

在我的上下文中，“非常大”是指 10k...100k 个条目。其中一些是重复的，因此唯一条目的数量约为 5k...15k。

我想将它们分组到垃圾箱中。这应该通过创建两个对象来完成。一个是矩阵缓冲区，b 从 d 中取出的数据项。另一个对象是每个缓冲区列引用的唯一 x 值的向量 v。这是示例:

v =  [48531, 62312, 23345, 1567, ...]
b = [[0    , 1    , 2    , 4   , ...]
     [X    , 3    , ....., ...., ...]
     [ ...., ....., ....., ...., ...]
     [X    , X    , 99998, X   , ...]
     [X    , X    , 99999, X   , ...] ]

由于 x 中每个唯一数字的出现次数不同，缓冲区 b 中的某些值无效(由大写 X 表示，即“不关心”)。

在 numpy 中推导 v 非常容易:

v, n = np.unique(x, return_counts=True)  # yay, just 5ms

我们甚至得到 n，它是 b 中每一列中有效条目的数量。此外，(np.max(n), v.shape[0]) 返回需要分配的矩阵 b 的形状。

但是如何高效地生成b呢？for 循环可能会有所帮助

b = np.zeros((np.max(n), v.shape[0]))
for i in range(v.shape[0]):
    idx = np.flatnonzero(x == v[i])
    b[0:n[i], i] = d[idx]

此循环遍历 b 的所有列并通过识别 x == v 的所有位置来提取索引 idx。

但是我不喜欢这个解决方案，因为 for 循环相当慢(比 unique 命令长大约 50 倍)。我宁愿将操作矢量化。

因此，一种矢量化方法是创建一个索引矩阵，其中 x == v 然后沿着列对其运行 nonzero() 命令。但是，此矩阵需要 150k x 15k 范围内的内存，因此在 32 位系统上大约需要 8GB。

对我来说，np.unique 操作甚至可以有效地返回倒排索引，这样 x = v[inv_indices] 听起来相当愚蠢，但是没有获取 v 中每个 bin 的 v 到 x 分配列表的方法。当函数扫描 x 时，这应该几乎是免费的。在实现方面，唯一的挑战是生成的索引矩阵的大小未知。

假设 np.unique-command 是用于分箱的方法来表述这个问题的另一种方式:

给定三个数组 x, v, inv_indices 其中 v 是 x 和 x = v[inv_indices 中的唯一元素] 是否有一种生成索引向量的有效方法 v_to_x[i] 使得 all(v[i] == x[v_to_x[i]]) 对于所有垃圾箱 i?

我不应该花比 np.unique-command 本身更多的时间。我很乐意为每个箱子中的元素数量提供上限(例如 50)。

最佳答案

根据@user202729的建议我写了这段代码

x_sorted_args = np.argsort(x)
x_sorted = x[x_sorted_args]

i = 0
v = -np.ones(T)
b = np.zeros((K, T))

for k,g in groupby(enumerate(x_sorted), lambda tup: tup[1]):
    groups = np.array(list(g))[:,0]
    size = groups.shape[0]

    v[i] = k
    b[0:size, i] = d[x_sorted_args[groups]]
    i += 1

in 运行大约 100 毫秒，这导致了相当大的加速 w.r.t.上面发布的原始代码。

它首先枚举出x中的值，加上相应的索引信息。然后枚举按实际 x 值分组，该值实际上是 enumerate() 生成的元组的第二个值。

for 循环遍历所有组，将元组 g 的迭代器转换为大小为 (size x 2) 的 groups 矩阵，并且然后丢弃第二列，即仅保留索引的 x 值。这导致 groups 只是一个一维数组。

groupby() 仅适用于排序数组。

干得好。我只是想知道我们是否可以做得更好？似乎仍然有很多不合理的数据复制发生。创建一个元组列表，然后将其转换为 2D 矩阵只是为了扔掉它的一半仍然感觉有点次优。

关于python - numpy 中的高效 bin 分配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48646873/

28

4

0

文章推荐： CSS:Opacity - Div 在 IE7 中不显示？

文章推荐： css - 在蓝图中处理图像大小

文章推荐： jquery - CSS 什么时候得到解决/评估？

文章推荐： ios - NSCache 有数百张图片

iphone - GKSession 分配/释放/分配 = 泄漏和崩溃
我有一个应用程序，它会抛出 GKSession 并在各种条件下(连接超时、 session 失败等)创建一个新的 GKSession。不过，我遇到了内存泄漏问题，并且有时会在重新连接几次循环后崩溃。
c - 是否可以说哪个指针由 cudaMalloc 分配，哪个由 malloc 分配？
比如我在宿主代码中有一个浮点指针 float *p 是否可以确定他指向的内存类型(设备/主机)？最佳答案在 UVA system 中, 运行时 API 函数 cudaPointerGetAttri
.net - 运行时类型句柄.分配
我已将项目转换为 .Net 4.0 并且以下代码不起作用: typeof(RuntimeTypeHandle).GetMethod("Allocate", BindingFlags.Instance
分配 `ab` 时包含单个字符的字符
当我声明 char ch = 'ab' 时，ch 只包含 'b'，为什么它不存储 'a'？ #include int main() { char ch = 'ab'; printf("%c"
文件的磁盘扇区和 block 分配
我对 Disk Sector 和 Block 有疑问。扇区是一个单位，通常为 512 字节或 1k、2k、4k 等取决于硬件。文件系统 block 大小是一组扇区大小。假设我正在存储一个 5KB 的
javascript - 分配/分发随机数量
假设我有 8 个人和5000 个苹果。我想将所有苹果分发给所有 8 个人，这样我就没有苹果了。但每个人都应该得到不同数量将它们全部分发出去的最佳方式是什么？我是这样开始的: let peopl
javascript - 分配 "/"热键以在搜索框上创建焦点用户
我正在构建的网站顶部有一个搜索栏。与 Trello 或 Gmail 类似，我希望当用户按下“/”键时，他们的焦点就会转到该搜索框。我的 JavaScript 看起来像这样: document.onk
javascript - 事件处理程序之间的一个 $this 分配
我有一小段代码: if (PZ_APP.dom.isAnyDomElement($textInputs)){ $textInputs.on("focus", function(){
iphone - iOS保留，分配
我观察到以下行为。接受了两个属性变量。 @property (nonatomic, retain) NSString *stringOne; @property (nonatomic, assign
java - BODMAS 分配
我正在解决这样的问题 - 实现一个计算由以下内容组成的表达式的函数以下操作数:“(”、“)”、“+”、“-”、“*”、“/”。中的每个数字表达式可能很大(与由字符串表示的一样大)1000 位)。 “/
python - 主机中任务的指派/分配
我有一组主机和一组任务。每个主机都有 cpu、mem 和任务容量，每个任务都有 cpu、mem 要求。每个主机都属于一个延迟类别，并且可以与具有特定延迟值的其他主机通信。每个任务可能需要以等于或
c - c中内存的重新分配/分配
该程序的作用:从文件中读取一个包含 nrRows 行和 nrColomns 列的矩阵(二维数组)。矩阵的所有元素都是 [0,100) 之间的整数。程序必须重新排列矩阵内的所有元素，使每个元素等于其所在
c++ - 长号。分配
世界!我有个问题。今天我尝试创建一个代码，它可以找到加泰罗尼亚语号码。但是在我的程序中可以是长数字。我找到了分子和分母。但我不能分割长数字!此外，只有标准库必须在此程序中使用。请帮帮我。这是我的代码
ios - 分配 NSInteger*
我确定我遗漏了一些明显的东西，但我想在 Objective C 中创建一个 NSInteger 指针的实例。 -(NSInteger*) getIntegerPointer{ NSInteger
ios - 分配/初始化只读属性
这个问题在这里已经有了答案: Difference between self.ivar and ivar? (4 个答案) 关闭 9 年前。
c++ - 分配 vector
我如何将 v[i] 分配给一系列整数(v 的类型是 vector )而无需最初填充最佳答案你的意思是将 std::vector 初始化为一系列整数？ int i[] = {1, 2, 3, 4,
c - 分配 - 指针到指针
我想寻求分配方面的帮助....我把这个作业带到了学校......我必须编写程序来加载一个 G 矩阵和第二个 G 矩阵，并搜索第二个 G 矩阵以获取存在数第一个 G 矩阵的......但是，当我尝试运行
c - 分配/取消分配资源
我必须管理资源。它基本上是一个唯一的编号，用于标识交换机中的第 2 层连接。可以有 16k 个这样的连接，因此每次用户希望配置连接时，他/她都需要分配一个唯一索引。同样，当用户希望删除连接时，资源(号
c - 分配/未分配字符串的命名约定
是否有任何通用的命名约定来区分已分配和未分配的字符串？我正在寻找的是希望类似于 us/s 来自 Making Wrong Code Look Wrong ，但我宁愿使用常见的东西也不愿自己动手。最佳
c - 如何解决以下函数中的内存分配问题？ (分配)
我需要读取一个 .txt 文件并将文件中的每个单词分配到一个结构中，该结构从结构 vector 指向。我将在下面更好地解释。感谢您的帮助。我的程序只分配文件的第一个字... 我知道问题出在函数 i

首页

博学

6Ren·AI

商城

python - numpy 中的高效 bin 分配