python - 改进 Numpy 中的矩阵乘法-6ren

python - 改进 Numpy 中的矩阵乘法

转载作者：太空宇宙更新时间：2023-11-03 11:59:44

我和一些 friend 正在做一个小型的语言竞赛来计算一些神经网络。有些人用 C 语言，有些人用 Fortran，而我:Python。

代码很简单，就是一堆矢量点运算和求和，然后应用信号函数并返回 -1 或 1(激活或未激活)。

我们发送了一堆随机数并检查(目前只有单个进程)哪种语言做得更快。

我的代码很简单:

def sgn(h):
    """Signal function"""
    return -1 if h < 0 else 1

def lincomb(A, B):
    """Linear combinator between two matrices"""
    return np.einsum('ji,ij->', A, B)

def lincombrav(A, B):
return A.ravel().dot(B.ravel('F'))

def functional_test():
    w1 = np.random.random(50**2).reshape(50,50)
    w2 = np.random.random(50**2).reshape(50,50)
    return sgn(lincombrav(w1, w2))

其中 A 和 B 是表示神经网络中每一层的矩阵。然后我们将第一个矩阵的第 i 列与第二个矩阵的第 i 行点在一起，对所有结果求和并发送到信号函数。像这样的东西:

w1 = 2*np.random.random(100**2).reshape(100,100)-1
w2 = 2*np.random.random(100**2).reshape(100,100)-1

然后我们计时

%timeit sgn(lincomb(w1, w2))

Python 输给 Fortran 38 倍 :-(

有没有办法改进 Python“代码”。

编辑:添加时间结果:

Python 版本(已经有ravel 模式)

In [10]: %timeit functional_test()
8.72 µs ± 406 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

Python 版本(带有 einsum)

In [16]: %timeit functional_test()
10.27 µs ± 490 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

Fortran 版本

In [13]: %timeit fort.test()
235 ns ± 12.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

Fortran 版本是使用“f2py”程序创建的，用于从 fortran 代码生成 python 可加载模块。

测试函数执行以下操作(在每种语言中):

创建矩阵A
创建矩阵B
从每个相应的语言实现中调用 sgn(lincomb(A,B))#

我还将矩阵创建移到外部，只运行数学运算而不是处理内存。尽管如此，python 还是落后了同样的幅度。

EDIT2:好 python 消息。 Python 在除小型矩阵测试之外的所有测试中都获胜。下面是完整的代码:

Python 函数 (bla.py)

import numpy as np
from numba import jit
import timeit
import matplotlib.pyplot as plt

def sgn(h):
    """Signal function"""
    return -1 if h < 0 else 1

def lincomb(A, B):
    """Linear combinator between two matrices"""
    return np.einsum('ji,ij->', A, B)

def lincombrav(A, B):
    return A.ravel().dot(B.ravel('F'))

def functional_test_ravel(n):
    """Functional tests (Victor experiment)"""

    w = 2*np.random.random(n**2).reshape(n,n)-1
    x = 2*np.random.random(n**2).reshape(n,n)-1

    return sgn(lincombrav(w, x))

def functional_test_einsum(n):
    """Functional tests (Victor experiment)"""

    w = 2*np.random.random(n**2).reshape(n,n)-1
    x = 2*np.random.random(n**2).reshape(n,n)-1

    return  sgn(lincomb(w, x))

@jit()
def functional_test_numbaein(n):
    """Functional tests (Victor experiment)"""

    w = 2*np.random.random(n**2).reshape(n,n)-1
    x = 2*np.random.random(n**2).reshape(n,n)-1

    return sgn(lincomb(w, x))


@jit()
def functional_test_numbarav(n):
    """Functional tests (Victor experiment)"""

    w = 2*np.random.random(n**2).reshape(n,n)-1
    x = 2*np.random.random(n**2).reshape(n,n)-1

    return sgn(lincombrav(w, x))

Fortran 函数 (fbla.f95)

module fbla
    implicit none
    integer, parameter::dp = selected_real_kind(12,100)
    public

contains

    real(kind=dp) function sgn(x)
        integer, parameter::dp = selected_real_kind(12,100)
        real(kind=dp), intent(in):: x

        if(x >= 0.0 ) then
            sgn = +1.0   
        else if (x < 0.0) then
            sgn = -1.0 
        end if
    end function sgn

    real(kind=dp) function lincomb(A, B, n)
        integer, parameter :: sp = selected_int_kind(r=8)
        integer, parameter :: dp = selected_real_kind(12,100)

        integer(kind=sp) :: i
        integer(kind=sp), intent(in):: n
        real(kind=DP), intent(in) :: A(n,n)
        real(kind=DP), intent(in) :: B(n,n)

        lincomb = 0
        do i=1,n
            lincomb = lincomb + dot_product(A(:,i),B(i,:))
        end do
    end function lincomb

    real(kind=dp) function functional_test(n)
        integer, parameter::dp = selected_real_kind(12,100)
        integer, parameter::sp = selected_int_kind(r=8)

        integer(kind=sp), intent(in):: n
        integer(kind=sp):: i, j
        real(kind=dp), allocatable, dimension(:,:):: x, w, wt   

        ALLOCATE(wt(n,n),w(n,n),x(n,n))

        do i=1,n
            do j=1,n
                w(i,j) = 2*rand(0)-1
                x(i,j) = 2*rand(0)-1
            end do
        end do

        wt = transpose(w)
        functional_test = sgn(lincomb(wt, x, n))
    end function functional_test

end module fbla

测试执行函数(tests.py)

import numpy as np
import timeit
import matplotlib.pyplot as plt
import bla
from fbla import fbla

def run_test(test_functions, N, runs=1000):
    results = []
    global rank
    for n in N:
        rank = n
        for t in test_functions:
            # print(f'Rank {globals()["rank"]}')
            print(f'Running {t} to matrix size {rank}', end='')
            r = min(timeit.Timer(t , globals=globals()).repeat(repeat=5, number=runs))
            print(f' total time {r} per run {r/runs}')
            results.append((t, n, r, r/runs))

    return results


def plotbars(results, test_functions, N):
    Nsz = len(N)
    M = len(test_functions)

    fig, ax = plt.subplots()

    ind = np.arange(int(Nsz))
    width = 1/(M+1)

    p = []
    for n in range(M):
        g = [ w*1000 for (x,y,z,w) in results if x==test_functions[n]]
        p.append(ax.bar(ind+n*width, g, width, bottom=0))

    ax.legend([ l[0] for l in p ], test_functions)
    ax.set_xticks(ind-width/2+((M/2) * width))
    ax.set_xticklabels(np.array(N).astype(str))
    ax.set_xlabel('Rank of square random matrix')
    ax.set_ylabel('Average time(ms) per run')
    ax.set_yscale('log')

    return fig

N = (10, 50, 100, 1000)
test_functions = [ 
        'bla.functional_test_einsum(rank)', 
        'fbla.functional_test(rank)'
]

results = run_test(test_functions, N)
plot = plotbars(results, test_functions, N)
plot.show()

结果是:

[('bla.functional_test_einsum(rank)', 10, 0.023221354000270367, 2.3221354000270368e-05),
 ('fbla.functional_test(rank)', 10, 0.005375514010665938, 5.375514010665938e-06),
 ('bla.functional_test_einsum(rank)', 50, 0.07035048000398092, 7.035048000398091e-05),
 ('fbla.functional_test(rank)', 50, 0.1242617039824836, 0.0001242617039824836),
 ('bla.functional_test_einsum(rank)', 100, 0.22694124400732107, 0.00022694124400732108),
 ('fbla.functional_test(rank)', 100, 0.5518505079962779, 0.0005518505079962779),
 ('bla.functional_test_einsum(rank)', 1000, 37.88827919398318, 0.03788827919398318),
 ('fbla.functional_test(rank)', 1000, 74.09929457501858, 0.07409929457501857)]

ipython3 session 的一些标准timeit 输出。 fbla 是 fortran 库，而 bla 是标准 python 库。

In : n=1000
In : w1 = 2*np.random.random(n**2).reshape(n,n)-1
In : w2 = 2*np.random.random(n**2).reshape(n,n)-1

In : bla.sgn(bla.lincomb(w1,w2))
Out: -1

In : fbla.sgn(fbla.lincomb(w1,w2))
Out: -1.0

In : %timeit fbla.sgn(fbla.lincomb(w1,w2))
11.3 ms ± 430 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In : %timeit bla.sgn(bla.lincomb(w1,w2))
3.81 ms ± 573 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

最佳答案

我们可以通过矩阵乘法改进一点-

sgn(w1.ravel().dot(w2.ravel('F')))

关于python - 改进 Numpy 中的矩阵乘法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53163185/

文章推荐： c# - UWP - 未找到包含提供的指纹的证书

文章推荐： Mysql 计数与条件或大小写不同

检查不良做法/改进
我对编码还比较陌生，但并非完全没有经验。处理有关金融计算器的学校作业。如果你们中的任何人可以查看我的代码以了解不良做法/可能的改进等，那就太好了。我确实添加了一个“动画”启动(有很多 printf
小目标检测改进拆分拼接
小目标Trick 论文链接： https://paperswithcode.com/paper/slicing-aided-hyper-inference-and-fine-tuning 代码链接：h
javascript - 改进 if 语句链
if (firstPositionCpc && (firstPosition > 0 && firstPositionCpc 0 && topOfPageCpc 0 && firstPageCpc
SQL 改进 - UNION？
我有 2 个表:“packages”和“items”。 “packages”有以下列:pack_id | item_id “items”有以下列......:item_id |输入一个包可以有多个
python - Pandas 改进
我目前有一个 Pandas Dataframe，我在其中执行列之间的比较。我发现一种情况，在进行比较时存在空列，由于某种原因比较返回 else 值。我添加了一个额外的语句来将其清理为空。看看我是否可以
具有四舍五入的主日期时间键的 MySQL 改进
我正在处理一个查询，通过首先舍入它们的主要日期时间键来连接一个数据库中的多个表。数据库包含来自 openhab 的性能数据，每个表只有一个名为 Time 的主日期时间行和一个名为 Value 的值行。
即发即弃的 C# 改进
问候我有一个程序创建一个类的多个实例，在所有实例上运行相同的长时间运行的 Update 方法并等待完成。我从 this question 开始关注 Kev 的方法将更新添加到 ThreadPool.
c - 对我的简单二十一点程序的建议/改进
我想在下学期的类(class)中取得领先，所以我制作了这个基本版本的 Blackjack 来开始理解 C 的基础知识，我希望您有任何想法可以帮助我更好地理解 C 和其正常的编码实践。 C 中的很多东西
javascript - 需要更好的解决方案/改进
我有一个要求，比如: 给定一个数组，其中包含随机数。需要输出元素出现的次数，有自带解决方案: var myArr = [3,2,1,2,3,1,4,5,4,6,7,7,9,1,123,0,123];
sql - min() 改进
这是我的数据库项目。表user_ select id, name from user_; id | name ----+---------- 1 | bartek 2 | bartek
bash - 改进 for 循环的执行
我已经完成了一个小批量脚本来调整(动态)一些图像的大小: for a in *.{png,PNG,jpg,JPG,jpeg,JPEG,bmp,BMP} ; do convert "$a" -resiz
列表理解中函数的 Pythonic 改进？
是否有更 pythonic 的方法来执行以下代码？我想在一行中完成 parsed_rows 是一个可以返回大小为 3 或 None 的元组的函数。 parsed_rows = [ parse_row(
选项转换器的 Javascript 改进
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
python - 列表到字典 - 改进？
下面的代码完成了我想要的，但还有其他更像 python 风格的方式吗？文件格式: key1:value1,key2:value2,... key21:value21,key22:value22,..
java - 检查字符串中是否存在字符集 - 改进
如果两个英文单词只包含相同的字母，则它们是相似的。例如，food 和 good 不相似，但 dog 和 good 相似。 (如果A与B相似，则A中的所有字母都包含在B中，B中的所有字母都包含在A中。)
c - 强平衡树 - 改进
我有以下结构来表示二叉树: typedef struct node *pnode; typedef struct node { int val; pnode left; pnode
algorithm - 改进 a* 搜索以在三角环境中寻找路径
我有一个区域，它由受约束的 delaunay 三角剖分表示。我正在解决在两点之间寻找路径的问题。我正在使用 Marcelo Kallmann 提供的论文作为解决此问题的引用点。然而，而不是使用 Kal
java - 使用正则表达式的性能开销/改进
如果我需要检查文本(字符串)中是否存在单词 A 或单词 B，如果我这样做会有性能差异: if(text.contains(wordA) || text.contains(wordB)) 要使用一些正则
xml - Xpath 改进
Adjust To 我有上面这个简单的页面，上面有一个标签和一个文本框。我想在文本框中输入文本。对我有帮助的 XPATH 是 //*[contains(tex
elisp - 改进 Elisp 条件表达式
以下伪代码的elisp代码 if "the emacs version is less than 23.1.x" do something else something-else 写成 (if

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城