- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个非常大的 1D python 数组 x
,其中包含一些重复的数字以及一些相同大小的数据 d
。
x = np.array([48531, 62312, 23345, 62312, 1567, ..., 23345, 23345])
d = np.array([0 , 1 , 2 , 3 , 4 , ..., 99998, 99999])
在我的上下文中,“非常大”是指 10k...100k 个条目。其中一些是重复的,因此唯一条目的数量约为 5k...15k。
我想将它们分组到垃圾箱中。这应该通过创建两个对象来完成。一个是矩阵缓冲区,b
从 d 中取出的数据项。另一个对象是每个缓冲区列引用的唯一 x 值的向量 v
。这是示例:
v = [48531, 62312, 23345, 1567, ...]
b = [[0 , 1 , 2 , 4 , ...]
[X , 3 , ....., ...., ...]
[ ...., ....., ....., ...., ...]
[X , X , 99998, X , ...]
[X , X , 99999, X , ...] ]
由于 x 中每个唯一数字的出现次数不同,缓冲区 b 中的某些值无效(由大写 X
表示,即“不关心”)。
在 numpy 中推导 v 非常容易:
v, n = np.unique(x, return_counts=True) # yay, just 5ms
我们甚至得到 n
,它是 b 中每一列中有效条目的数量。此外,(np.max(n), v.shape[0])
返回需要分配的矩阵 b 的形状。
但是如何高效地生成b呢?for 循环可能会有所帮助
b = np.zeros((np.max(n), v.shape[0]))
for i in range(v.shape[0]):
idx = np.flatnonzero(x == v[i])
b[0:n[i], i] = d[idx]
此循环遍历 b 的所有列并通过识别 x == v
的所有位置来提取索引 idx
。
但是我不喜欢这个解决方案,因为 for 循环相当慢(比 unique 命令长大约 50 倍)。我宁愿将操作矢量化。
因此,一种矢量化方法是创建一个索引矩阵,其中 x == v
然后沿着列对其运行 nonzero()
命令。但是,此矩阵需要 150k x 15k 范围内的内存,因此在 32 位系统上大约需要 8GB。
对我来说,np.unique
操作甚至可以有效地返回倒排索引,这样 x = v[inv_indices]
听起来相当愚蠢,但是没有获取 v 中每个 bin 的 v 到 x 分配列表的方法。当函数扫描 x 时,这应该几乎是免费的。在实现方面,唯一的挑战是生成的索引矩阵的大小未知。
假设 np.unique-command 是用于分箱的方法来表述这个问题的另一种方式:
给定三个数组 x, v, inv_indices
其中 v
是 x
和 x = v[inv_indices 中的唯一元素]
是否有一种生成索引向量的有效方法 v_to_x[i]
使得 all(v[i] == x[v_to_x[i]])
对于所有垃圾箱 i
?
我不应该花比 np.unique-command 本身更多的时间。我很乐意为每个箱子中的元素数量提供上限(例如 50)。
最佳答案
根据@user202729的建议我写了这段代码
x_sorted_args = np.argsort(x)
x_sorted = x[x_sorted_args]
i = 0
v = -np.ones(T)
b = np.zeros((K, T))
for k,g in groupby(enumerate(x_sorted), lambda tup: tup[1]):
groups = np.array(list(g))[:,0]
size = groups.shape[0]
v[i] = k
b[0:size, i] = d[x_sorted_args[groups]]
i += 1
in 运行大约 100 毫秒,这导致了相当大的加速 w.r.t.上面发布的原始代码。
它首先枚举出x
中的值,加上相应的索引信息。然后枚举按实际 x
值分组,该值实际上是 enumerate()
生成的元组的第二个值。
for 循环遍历所有组,将元组 g
的迭代器转换为大小为 (size x 2)
的 groups
矩阵,并且然后丢弃第二列,即仅保留索引的 x
值。这导致 groups
只是一个一维数组。
groupby()
仅适用于排序数组。
干得好。我只是想知道我们是否可以做得更好?似乎仍然有很多不合理的数据复制发生。创建一个元组列表,然后将其转换为 2D 矩阵只是为了扔掉它的一半仍然感觉有点次优。
关于python - numpy 中的高效 bin 分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48646873/
我有一个应用程序,它会抛出 GKSession 并在各种条件下(连接超时、 session 失败等)创建一个新的 GKSession。不过,我遇到了内存泄漏问题,并且有时会在重新连接几次循环后崩溃。
比如我在宿主代码中有一个浮点指针 float *p 是否可以确定他指向的内存类型(设备/主机)? 最佳答案 在 UVA system 中, 运行时 API 函数 cudaPointerGetAttri
我已将项目转换为 .Net 4.0 并且以下代码不起作用: typeof(RuntimeTypeHandle).GetMethod("Allocate", BindingFlags.Instance
当我声明 char ch = 'ab' 时,ch 只包含 'b',为什么它不存储 'a'? #include int main() { char ch = 'ab'; printf("%c"
我对 Disk Sector 和 Block 有疑问。扇区是一个单位,通常为 512 字节或 1k、2k、4k 等取决于硬件。文件系统 block 大小是一组扇区大小。 假设我正在存储一个 5KB 的
假设我有 8 个人和5000 个苹果。 我想将所有苹果分发给所有 8 个人,这样我就没有苹果了。 但每个人都应该得到不同数量 将它们全部分发出去的最佳方式是什么? 我是这样开始的: let peopl
我正在构建的网站顶部有一个搜索栏。与 Trello 或 Gmail 类似,我希望当用户按下“/”键时,他们的焦点就会转到该搜索框。 我的 JavaScript 看起来像这样: document.onk
我有一小段代码: if (PZ_APP.dom.isAnyDomElement($textInputs)){ $textInputs.on("focus", function(){
我观察到以下行为。 接受了两个属性变量。 @property (nonatomic, retain) NSString *stringOne; @property (nonatomic, assign
我正在解决这样的问题 - 实现一个计算由以下内容组成的表达式的函数以下操作数:“(”、“)”、“+”、“-”、“*”、“/”。中的每个数字表达式可能很大(与由字符串表示的一样大)1000 位)。 “/
我有一组主机和一组任务。 每个主机都有 cpu、mem 和任务容量,每个任务都有 cpu、mem 要求。 每个主机都属于一个延迟类别,并且可以与具有特定延迟值的其他主机通信。 每个任务可能需要以等于或
该程序的作用:从文件中读取一个包含 nrRows 行和 nrColomns 列的矩阵(二维数组)。矩阵的所有元素都是 [0,100) 之间的整数。程序必须重新排列矩阵内的所有元素,使每个元素等于其所在
世界!我有个问题。今天我尝试创建一个代码,它可以找到加泰罗尼亚语号码。但是在我的程序中可以是长数字。我找到了分子和分母。但我不能分割长数字!此外,只有标准库必须在此程序中使用。请帮帮我。这是我的代码
我确定我遗漏了一些明显的东西,但我想在 Objective C 中创建一个 NSInteger 指针的实例。 -(NSInteger*) getIntegerPointer{ NSInteger
这个问题在这里已经有了答案: Difference between self.ivar and ivar? (4 个答案) 关闭 9 年前。
我如何将 v[i] 分配给一系列整数(v 的类型是 vector )而无需最初填充 最佳答案 你的意思是将 std::vector 初始化为一系列整数? int i[] = {1, 2, 3, 4,
我想寻求分配方面的帮助....我把这个作业带到了学校......我必须编写程序来加载一个 G 矩阵和第二个 G 矩阵,并搜索第二个 G 矩阵以获取存在数第一个 G 矩阵的......但是,当我尝试运行
我必须管理资源。它基本上是一个唯一的编号,用于标识交换机中的第 2 层连接。可以有 16k 个这样的连接,因此每次用户希望配置连接时,他/她都需要分配一个唯一索引。同样,当用户希望删除连接时,资源(号
是否有任何通用的命名约定来区分已分配和未分配的字符串?我正在寻找的是希望类似于 us/s 来自 Making Wrong Code Look Wrong ,但我宁愿使用常见的东西也不愿自己动手。 最佳
我需要读取一个 .txt 文件并将文件中的每个单词分配到一个结构中,该结构从结构 vector 指向。我将在下面更好地解释。 感谢您的帮助。 我的程序只分配文件的第一个字... 我知道问题出在函数 i
我是一名优秀的程序员,十分优秀!