gpt4 book ai didi

python - Theano 中归约操作的加速

转载 作者:行者123 更新时间:2023-12-01 04:13:32 25 4
gpt4 key购买 nike

编辑:
很抱歉,事实证明,在进行测试时,我的 GPU 上运行了其他进程,我更新了空闲 GPU 上的计时结果,并且对于较大的矩阵,加速变得明显。

原帖:

发布于this question , L 是一个矩阵列表,其中每个项目 M 是一个 x*n 矩阵(x 是一个变量,n 是固定的)。

我想计算 L 中所有项目的 M'*M 总和(M' 的转置M),如以下 Python 代码所示。

for M in L:
res += np.dot(M.T, M)

以下是 Numpy 和 Theano 实现的一些示例(有关可执行脚本,请参阅 @DanielRenshaw 对 previous question 的回答)。

def numpy_version1(*L):
n = L[0].shape[1]
res = np.zeros((n, n), dtype=L[0].dtype)
for M in L:
res += np.dot(M.T, M)
return res

def compile_theano_version1(number_of_matrices, n, dtype):
L = [tt.matrix() for _ in xrange(number_of_matrices)]
res = tt.zeros(n, dtype=dtype)
for M in L:
res += tt.dot(M.T, M)
return theano.function(L, res)

def compile_theano_version2(number_of_matrices, n):
L = theano.typed_list.TypedListType(tt.TensorType(theano.config.floatX, broadcastable=(None, None)))()
res, _ = theano.reduce(fn=lambda i, tmp: tmp+tt.dot(L[i].T, L[i]),
outputs_info=tt.zeros((n, n), dtype=theano.config.floatX),
sequences=[theano.tensor.arange(number_of_matrices, dtype='int64')])
return theano.function([L], res)

我在 CPU 上运行了 Numpy 版本,在具有不同设置的 GPU 上运行了 Theano 版本,似乎 Theano 版本总是成比例地慢于 Numpy 版本(无论 matices 的数量和大小如何)。

但我预计 GPU 可能会进行一些优化,因为它是一个简单的归约操作。

有人可以帮助我了解幕后发生的事情吗?

编辑:
以下是用于生成数据、我已经厌倦的设置和结果的脚本(来自@DanielRenshaw)。

L = [np.random.standard_normal(size=(x, n)).astype(dtype)
for x in range(min_x, number_of_matrices + min_x)]

dtype = 'float32'
theano.config.floatX = dtype
iteration_count = 10
min_x = 20

# base case:
# numpy_version1 0.100589990616
# theano_version1 0.243968963623
# theano_version2 0.198153018951
number_of_matrices = 200
n = 100

# increase matrix size:
# numpy_version1 4.90120816231
# theano_version1 0.984472036362
# theano_version2 3.56008815765
number_of_matrices = 200
n = 1000

# increase number of matrices:
# numpy_version1 5.11445093155
# theano_version1 compilation error
# theano_version2 6.54448604584
number_of_matrices = 2000
n = 100

最佳答案

您遇到的问题不是矩阵的数量,而是它们的大小

您的测试示例创建的矩阵大小取决于您拥有的矩阵数量,因此,您拥有的矩阵越多,矩阵就越大,但Python循环开销也越大(在reduce操作中),因此,这使得检测速度的改进变得更加困难。

我已经稍微修改了您的矩阵生成,以便进行一些新的测试:

S = 1000 # Size of the matrices
N = 10 # Number of matrices

L = [np.random.standard_normal(size=(np.random.randint(S//2, S*2), S)).astype(np.float32) for _ in range(N)]

这仅生成 10 个大小为 (x, 1000) 的矩阵,其中 x[S//2, S*2 范围内的某个值] == [500, 2000].

f1 = compile_theano_version1(N, S, np.float32)
f2 = compile_theano_version2(N, S)
<小时/>
  • 现在使用 N = 10 大矩阵进行一些测试:

对于S = 1000N = 10:

 %timeit numpy_version1(*L)   # 10 loops, best of 3: 131 ms per loop
%timeit f1(*L) # 10 loops, best of 3: 37.3 ms per loop
%timeit f2(L) # 10 loops, best of 3: 68.7 ms per loop

其中 theano 函数在具有相当不错的 i7 和不错的 NVIDIA 860M 的笔记本电脑中具有 x4x2 加速(这意味着你应该在这里得到一些更好的加速)。

对于S = 5000N = 10:

 %timeit numpy_version1(*L)   # 1 loops, best of 3: 4 s per loop
%timeit f1(*L) # 1 loops, best of 3: 907 ms per loop
%timeit f2(L) # 1 loops, best of 3: 1.77 s per loop

因此,总体而言,在这种设置下,S 越大,theano 对 CPU 的加速就越大。

<小时/>
  • 使用 N = 100 大矩阵进行的一些测试:theano 似乎更快

对于S = 1000N = 100:

%timeit numpy_version1(*L)   # 1 loops, best of 3: 1.46 s per loop
%timeit f1(*L) # 1 loops, best of 3: 408 ms per loop
%timeit f2(L) # 1 loops, best of 3: 724 s per loop

对于S = 2000N = 100:

%timeit numpy_version1(*L)   # 1 loops, best of 3: 11.3 s per loop
%timeit f1(*L) # 1 loops, best of 3: 2.72 s per loop
%timeit f2(L) # 1 loops, best of 3: 4.01 s per loop
<小时/>
  • 使用 N = 100 小矩阵进行测试:numpy 似乎更快

对于S = 50N = 100:

%timeit numpy_version1(*L)   # 100 loops, best of 3: 1.17 ms per loop
%timeit f1(*L) # 100 loops, best of 3: 4.21 ms per loop
%timeit f2(L) # 100 loops, best of 3: 7.42 ms per loop
<小时/>

测试规范:

  • 处理器:i7 4710HQ
  • GPU:NVIDIA GeForce GTX 860M
  • Numpy:使用英特尔 MKT 构建的版本 1.10.2
  • Theano:版本 0.70; floatX = float32;使用 GPU

关于python - Theano 中归约操作的加速,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34587251/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com