python - 理解 CUDA、Numba、Cupy 等的扩展示例-6ren

python - 理解 CUDA、Numba、Cupy 等的扩展示例

转载作者：行者123 更新时间：2023-12-03 20:49:31

30

4

大多数在线可用的 Numba、CuPy 等示例都是简单的数组添加，显示了从 cpu 单核/线程到 gpu 的加速。并且命令文档大多缺乏好的例子。这篇文章旨在提供一个更全面的示例。
提供初始代码here .它是经典元胞自动机的简单模型。最初，它甚至不使用 numpy，只使用普通的 python 和 Pyglet 模块进行可视化。
我的目标是将此代码扩展到特定问题(这将非常大)，但首先我认为最好已经针对 GPU 使用进行优化。
game_of_life.py 是这样的:

import random as rnd
import pyglet
#import numpy as np
#from numba import vectorize, cuda, jit

class GameOfLife: 
 
    def __init__(self, window_width, window_height, cell_size, percent_fill):
        self.grid_width = int(window_width / cell_size) # cell_size 
        self.grid_height = int(window_height / cell_size) # 
        self.cell_size = cell_size
        self.percent_fill = percent_fill
        self.cells = []
        self.generate_cells()
  
    def generate_cells(self):
        for row in range(0, self.grid_height): 
            self.cells.append([])
            for col in range(0, self.grid_width):
                if rnd.random() < self.percent_fill:
                    self.cells[row].append(1)
                else:
                    self.cells[row].append(0)
                
    def run_rules(self): 
        temp = []
        for row in range(0, self.grid_height):
            temp.append([])
            for col in range(0, self.grid_width):
                cell_sum = sum([self.get_cell_value(row - 1, col),
                                self.get_cell_value(row - 1, col - 1),
                                self.get_cell_value(row,     col - 1),
                                self.get_cell_value(row + 1, col - 1),
                                self.get_cell_value(row + 1, col),
                                self.get_cell_value(row + 1, col + 1),
                                self.get_cell_value(row,     col + 1),
                                self.get_cell_value(row - 1, col + 1)])
                
                if self.cells[row][col] == 0 and cell_sum == 3:
                    temp[row].append(1)
                elif self.cells[row][col] == 1 and (cell_sum == 3 or cell_sum == 2):
                    temp[row].append(1)
                else:                 
                    temp[row].append(0)
        
        self.cells = temp

    def get_cell_value(self, row, col): 
        if row >= 0 and row < self.grid_height and col >= 0 and col < self.grid_width:
           return self.cells[row][col]
        return 0

    def draw(self): 
        for row in range(0, self.grid_height):
            for col in range(0, self.grid_width):
                if self.cells[row][col] == 1:
                    #(0, 0) (0, 20) (20, 0) (20, 20)
                    square_coords = (row * self.cell_size,                  col * self.cell_size,
                                     row * self.cell_size,                  col * self.cell_size + self.cell_size,
                                     row * self.cell_size + self.cell_size, col * self.cell_size,
                                     row * self.cell_size + self.cell_size, col * self.cell_size + self.cell_size)
                    pyglet.graphics.draw_indexed(4, pyglet.gl.GL_TRIANGLES,
                                         [0, 1, 2, 1, 2, 3],
                                         ('v2i', square_coords))

首先，我可以在 generate_cells 末尾使用 numpy 添加这个 self.cells = np.asarray(self.cells)在 run_rules 结束时这个 self.cells = np.asarray(temp) ，因为之前这样做不会带来加速，如 here 所示.(实际上更改为 numpy 并没有带来明显的加速)
例如，关于 gpu，我添加了 @jit在每个函数之前，并且变得很慢。
还尝试使用 @vectorize(['float32(float32, float32)'], target='cuda') , 但这提出了一个问题:如何使用 @vectorize在只有 self 的函数中作为输入参数？
我还尝试用 numpy 代替 cupy，例如 self.cells = cupy.asarray(self.cells) ，但也变得很慢。
按照 gpu 使用扩展示例的初步想法，解决问题的正确方法是什么？放置修改/矢量化/并行化/numba/cupy等的正确位置在哪里？最重要的是，为什么？
附加信息:除了提供的代码，这里是 main.py 文件:

import pyglet
from game_of_life import GameOfLife 
 
class Window(pyglet.window.Window):
 
    def __init__(self):
        super().__init__(800,800)
        self.gameOfLife = GameOfLife(self.get_size()[0],
                                     self.get_size()[1],
                                     15,  # the lesser this value, more computation intensive will be
                                     0.5) 

        pyglet.clock.schedule_interval(self.update, 1.0/24.0) # 24 frames per second
 
    def on_draw(self):
        self.clear()
        self.gameOfLife.draw()
        
    def update(self, dt):
        self.gameOfLife.run_rules()
 
if __name__ == '__main__':
    window = Window()
    pyglet.app.run()

最佳答案

我不太了解您的示例，但我只需要 GPU 计算。痛了几天，大概明白它的用法了，给大家演示一下，希望对大家有所帮助。
另外需要指出的是，在使用“...kernel(cuts,cuts”的时候，我会放两个。因为第一个在传入的时候指定了类型，所以会被核心用作遍历元素并且不能被索引读取，所以我使用第二个来计算空闲索引数据。

```
binsort_kernel = cp.ElementwiseKernel(
'int32 I,raw T cut,raw T ind,int32 row,int32 col,int32 q','raw T out,raw T bin,raw T num',    
'''
int i_x = i / col;                
int i_y = i % col;                
int b_f = i_x*col;                
int b_l = b_f+col;                
int n_x = i_x * q;                
int inx = i_x%row*col;            
////////////////////////////////////////////////////////////////////////////////////////
int r_x = 0; int adi = 0; int adb = 0;  
////////////////////////////////////////////////////////////////////////////////////////
if (i_y == 0)
{
for(size_t j=b_f; j<b_l; j++){
    if (cut[j]<q){                
        r_x = inx + j -b_f;       
        adb = n_x + cut[j];       
        adi = bin[adb] + num[adb];
        out[adi] = ind[r_x];      
        num[adb]+= 1;             
    }}
}
////////////////////////////////////////////////////////////////////////////////////////
''','binsort')

binsort_kernel(cuts,cuts,ind,row,col,q,iout,bins,bnum)

关于python - 理解 CUDA、Numba、Cupy 等的扩展示例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63622029/

30

4

0

文章推荐： iphonepresentModalViewController

文章推荐： python - python中的Coinbase APIerror(id = )

必须加载 PHP 扩展 "curl"。必须加载 PHP 扩展 "soap"
我是 magento 的新手，目前我在 magento 安装期间遇到“必须加载 PHP 扩展 curl ”错误。你能帮帮我吗？最佳答案如果您的服务器上没有安装 curl，您可以键入以下命令之一来安
php - $ Composer 找不到 mongodb 扩展，需要 Mongodb 扩展
我在 macOS Mojave/macOS Big Sur/macOS Monterey/macOS Ventura 上使用最新的 php 版本 7.2 并收到类似错误 $composer requ
java - Integer 扩展 Number 但无法对
这个问题已经有答案了: Why generic type is not applicable for argument extends super class for both? (5 个回答) 已关
javascript - 在默认 NightWatch 浏览器实例中启用和修改 Chome 扩展(特别是 ModHeader 扩展)
我正在使用 NightWatch.js 并进行一些 UI 测试，我想用一些额外的 desiredCapabilities 启动默认浏览器实例(即启用扩展并应用一些特定值)。 p> 注意:我可以执行这些
java - 扩展 server_name(SNI 扩展)未随 JAVA 8 一起发送
有人知道为什么我在 java 8 中使用此代码时没有服务器扩展名称吗: try { URL url = new URL(urlString); URLC
dart - 扩展 dart 类类似于 js 原型(prototype)或 swift 扩展
扩展提供给我的类(class)。为现有的类提供新功能。或扩展现有的mixin s 或虚拟类，任何东西都可以工作。也许是这样的: class FlatButton {} // maybe no
python - 使用 c 扩展 python/django，使用 apache 扩展 mod_wsgi
我有一个关于使用 c 代码和 mod_wsgi 扩展 python 的问题。我在 apache 服务器中有一个 django 应用程序，它查询 postgresql 数据库以生成报告。在某些报告中，
google-chrome - testcafe 是否支持加载任何 crx 扩展，并使用 chrome 浏览器中的自定义 header 值设置 ModHeader 扩展
testcafe支持在Chrome浏览器中加载crx扩展吗？如果是这样，请告诉我需要尝试什么方法。我尝试了下面的代码，但没有成功 await t.eval(new Function(fs.read
java - 在 Java 中，类 B 扩展 A 和类 B 扩展 A 之间有什么区别
这个问题已经有答案了: What is a raw type and why shouldn't we use it? (16 个回答) 已关闭 3 年前。有什么区别: // 1 class A c
javascript - 单击 chrome 扩展 DOM(popup.html) 上的按钮时，扩展 DOM 关闭并且不会在 popup.js 中调用 onclick 函数
我正在编写一个 chrome 扩展来记录单击开始按钮后触发的请求。这是我的文件:1. list .json { "manifest_version": 2, "name": "recorde
大语言模型提示技巧（七）－扩展
扩展是将较短的文本，例如一组提示或主题列表，输入到大型语言模型中，让模型生成更长的文本。我们可以利用这个特性让大语言模型生成基于某个主题的电子邮件或小论文。通过这种方式使用大语言模型，可以为工作与生活
Vim # 扩展
我每天都在使用 vim 和 perforce 现在我的问题是，如果我想查看 perforce 文件修订版，则从命令模式下的 vim :!p4 打印文件#1 vim 试图让我获得缓冲区 #1。有没有办法
NUnit 扩展
大家好，我有一个关于 NUnit 扩展(2.5.10)的问题。我想做的是向数据库。为此，我使用 Event 创建了 NUnit 扩展听众。我遇到的问题是公共(public)无效 TestFin
扩展。通过单击不在窗口中关闭弹出窗口
我有弹出窗口，而不是模态窗口。如何通过单击页面的其他部分(不在窗口中)来关闭此窗口？最佳答案像这样的东西: function closeWin(e, t) { var el = win.
C# 扩展
我通常非常谨慎地使用扩展方法。当我确实觉得有必要编写一个扩展方法时，有时我想重载该方法。我的问题是，您对调用其他扩展方法的扩展方法有何看法？不好的做法？感觉不对，但我无法真正定义原因。例如，第二个
16、扩展 Ant
扩展 Ant Ant带有一组预定义的任务，但是你可以创建自己的任务，如下面的例子所示。定制Ant 任务应扩展 org.apache.tools.ant.Task 类，同时也应该拓展 execut
用于重定向文件的 Firefox 扩展
我想要一个重定向所有请求的扩展: http://website.com/foo.js 到: http://localhost/myfoo.js 我无法使用主机文件将主机从 website.com 编辑
c++ - 扩展 QChartView
对于为什么 QChartView 放在 QTabWidget 中时会扩展，我有点迷惑。这是 QChartView 未展开(因为它被隐藏)时应用程序的图片。应用程序的黑色部分是 QOpenGLWid
oracle - 如何避免 OR 扩展？
如果在连接条件中使用 OR 运算符，如何优化以下查询以避免 SQL 调优方面的 OR 扩展？ SELECT t1.A, t2.B, t1.C, t1.D, t2.E FROM t1 LEFT J
.net - 扩展/插件通信架构
一旦加载插件的问题得到解决(在 .NET 中通过 MEF 的情况下)，下一步要解决的是与它们的通信。简单的方法是实现一个接口(interface)，使用插件实现，但有时插件只需要扩展应用程序的工作方式

首页

博学

6Ren·AI

商城

python - 理解 CUDA、Numba、Cupy 等的扩展示例