- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在编写一些代码,其中有几个矩阵,并且想要从每个矩阵的每一行中减去向量 $v$ (然后对结果执行一些其他操作)。由于我正在使用 NumPy 并且希望尽可能地“向量化”,因此我认为可以通过将所有矩阵存储为一个大(“串联”)矩阵并从中减去 $v$ 来加快运行时间。问题是我的代码在经过这种所谓的优化后运行速度变慢。事实上,在某些情况下,分解矩阵并分别进行减法要快得多(请参阅下面的代码示例)。
你能告诉我是什么原因造成的吗?天真地,我假设这两种方法都需要相同数量的基本减法运算,并且大矩阵方法更快,因为我们避免使用纯 Python 循环单独循环所有矩阵。
最初,我认为速度变慢可能是由于初始化了一个更大的矩阵来存储减法结果。为了测试这一点,我在测试函数之外初始化了一个大矩阵,并将其传递给 np.subtract 命令。然后我认为广播可能会导致性能缓慢,因此我手动将向量广播为与大矩阵相同的形状,然后减去所得的广播矩阵。这两种尝试都未能使大矩阵方法具有竞争力。
我制作了以下 MWE 来展示该问题。
导入 NumPy 和计时器:
import numpy as np
from timeit import default_timer as timer
然后我有一些控制矩阵大小和数量的参数。
n = 100 # width of matrix
m = 500 # height of matrix
k = 100 # number of matrices
M = 100 # upper bound on entries
reps = 100 # repetitions for timings
我们可以生成一个测试矩阵列表,如下所示。大矩阵只是列表中所有矩阵的串联。我们从矩阵中减去的向量是随机生成的。
list_of_matrices = [np.random.randint(0, M+1, size=(m,n)) for _ in range(k)]
large_matrix = np.row_stack(list_of_matrices)
vector = np.random.randint(0, M+1, size=n)
这是我用来评估减法速度的三个函数。第一个函数从列表中的每个矩阵中减去向量,第二个函数从(连接的)大矩阵中减去向量,最后一个函数试图通过预初始化输出矩阵并广播向量来加速后一种方法。
def list_compute(list_of_matrices, vector):
for j in range(k):
np.subtract(list_of_matrices[j], vector)
def array_compute(bidlists, vector):
np.subtract(large_matrix, vector_matrix, out=pre_allocated)
pre_allocated = np.empty(shape=large_matrix.shape)
vector_matrix = np.broadcast_to(vector, shape=large_matrix.shape)
def faster_array_compute(large_matrix, vector_matrix, out_matrix):
np.subtract(large_matrix, vector_matrix, out=out_matrix)
我通过运行对三个函数进行基准测试
start = timer()
for _ in range(reps):
list_compute(list_of_matrices, vector)
print timer() - start
start = timer()
for _ in range(reps):
array_compute(large_matrix, vector)
print timer() - start
start = timer()
for _ in range(reps):
faster_array_compute(large_matrix, vector_matrix, pre_allocated)
print timer() - start
对于上述参数,我得到的时间
0.539432048798
1.12959504128
1.10976290703
天真地,我希望大矩阵方法比多个矩阵方法更快或至少具有竞争力。我希望有人能给我一些见解,解释为什么情况并非如此,以及如何加快我的代码!
最佳答案
变量pre_allocated的类型是float8。输入矩阵是 int 。你有一个隐式转换。尝试将预分配修改为:
pre_allocated = np.empty_like(large_matrix)
更改之前,我的计算机上的执行时间为:
0.6756095182868318
1.2262537249271794
1.250292605883855
更改后:
0.6776479894965846
0.6468182835551346
0.6538956945388001
所有情况下的性能都相似。这些测量值存在很大差异。人们甚至可能会观察到第一个是最快的。
看来预分配没有带来任何 yield 。
请注意,分配速度非常快,因为它只保留地址空间。实际上,RAM 仅在访问事件时消耗。缓冲区为 20MiB,因此 CPU 上的 L3 缓存更大。执行时间主要由页面错误和缓存重新填充决定。此外,对于第一种情况,内存在释放后立即重新分配。该资源对于内存分配器来说可能是“热”的。因此您不能直接将解决方案 A 与其他解决方案进行比较。
修改第一种情况中的“action”行以保留实际结果:
np.subtract(list_of_matrices[j], vector, out=pre_allocated[m*j:m*(j+1)])
然后,矢量化操作的 yield 变得更加明显:
0.8738251849091547
0.678185239557866
0.6830777283598941
关于python - 为什么 NumPy 在一个大矩阵 $M$ 上的减法比将 $M$ 分成较小的矩阵然后进行减法慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56997363/
简单问题:如何指定分割窗口中的字符数? C-x-3 将我的窗口均匀分割为两个窗口,但随后的分割会将其中一个窗口分成两半。我想要 3 个大小相同的 window 。文档说我应该能够指定左缓冲区的字符数作
我需要一个程序,可以接受用户输入的数据数量和长度(英尺和英寸或仅英寸),并将这些项目分为 40 组。 我最初尝试在 Excel 中完成此任务,但我不确定是否可以完成。 var cutList = [
这个问题已经有答案了: Why does the division of two integers return 0.0 in Java? [duplicate] (6 个回答) 已关闭 5 年前。
我想知道在使用布局 (MigLayout) 时我可以分成 2 行而不是两列吗? panel.add(fname,"split 2"); panel.add(Fname,"wrap, pushx, gr
我几乎有一个像下面这样的代码,我正在尝试添加 每 6 个结果之后。 echo ""; $query="SELECT * WHERE id='$id' ORDER BY date ASC"; $resu
我在 android 2.2 中创建了一个选项卡 fragment ,带有 android 兼容性支持库 ,现在在我的应用程序中我几乎没有 Activity ,其中一些是扩展 Activity 类和其
这是我的 question 的扩展. 为了让它更简单让我们假设我有一个 pandas 数据框,如下所示。 df = pd.DataFrame([[1.1, 1.1, 2.5, 2.6, 2.5, 3.
我正在开发 Windows Phone 8 应用程序,其中我有一个 Stackpanel,我想在其中放置 7 个矩形。我希望这些矩形具有相同的高度,无论屏幕尺寸如何。我尝试设置 Height="*"
我一直相信java使用UTF-16在内部对其字符进行编码。它使用 u+xxxx 的事实证实了这一点。表示字符代码的格式以及它使用 16 位存储 char 的事实。 . 但有时UTF-16需要超过 2
我正在开发 Windows Phone 8 应用程序,其中我有一个 Stackpanel,我想在其中放置 7 个矩形。我希望这些矩形具有相同的高度,无论屏幕尺寸如何。我尝试设置 Height="*"
为了重新编码 malloc 函数,我执行了 sbrk(stack) 其中: void *malloc(size_t size) { stack = 0; while (stack start
寻找一个 css 或 jquery 解决方案来将这些动态加载的表分解为每行最多 6 个,创建表的脚本将它们全部内联,有时一行中显示多达 32 个 td.tables。我怎样才能在最多只有 6 个内联显
我可以请求帮助将 UTF-16 数据流拆分成 block 吗? 不幸的是,很难找到字母边界。 任何帮助表示赞赏,已经花了几个晚上在这上面,很想了解这个问题。 运行良好的 Java 版本(是否有任何自动
我正在使用 Contact Forms 7在 wordpress 安装中创建联系表单。创建的表单位于 here Contact Form 扩展是免费、灵活且易于使用的。但问题是,无论一个表单包含多少个
我想将一个字符串拆分为一系列子字符串以适合我的数据库,假设我的数据库 varchar 大小为 50。如果将原始字符串切割为最多 50 个字符,那么我需要在该字符串中包含尾随 (逗号)。例如, 我的原始
我必须用 css 做一个足球队盾牌,我的想法是用球队的颜色做一个圆圈,我已经用 1 种或 2 种颜色为盾牌做了圆圈,但我在使用 3 种颜色的盾牌时遇到了麻烦 我将其用于 2 种颜色的防护罩 .equi
如果我有 1000 美元(可变),我想把这笔钱分给 20(可变)人,但不是平均地给每个人,我想给第一个人更多,然后第二人称等 所以第 20 个人得到的最少,第 5 个人得到的第 5 多。 我将如何实现
我需要一种算法,将数字 n 分成 k 部分,并增加限制,即每个分区元素必须在 a 0 and k > 0: for x in range(a, b+1): fo
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Swing: How do I set a component height to the containe
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 9
我是一名优秀的程序员,十分优秀!