c - SIMD 值得吗？有更好的选择吗？-6ren

c - SIMD 值得吗？有更好的选择吗？

转载作者：太空狗更新时间：2023-10-29 17:18:09

25

4

我有一些代码运行得相当好，但我想让它运行得更好。我遇到的主要问题是它需要有一个嵌套的 for 循环。外层用于迭代(必须连续发生)，内层用于考虑中的每个点粒子。我知道对于外部的我无能为力，但我想知道是否有一种优化方法，例如:

    void collide(particle particles[], box boxes[], 
        double boxShiftX, double boxShiftY) {/*{{{*/
            int i;
            double nX; 
            double nY; 
            int boxnum;
            for(i=0;i<PART_COUNT;i++) {
                    boxnum = ((((int)(particles[i].sX+boxShiftX))/BOX_SIZE)%BWIDTH+
                        BWIDTH*((((int)(particles[i].sY+boxShiftY))/BOX_SIZE)%BHEIGHT)); 
                        //copied and pasted the macro which is why it's kinda odd looking

                    particles[i].vX -= boxes[boxnum].mX;
                    particles[i].vY -= boxes[boxnum].mY;
                    if(boxes[boxnum].rotDir == 1) {
                            nX = particles[i].vX*Wxx+particles[i].vY*Wxy;
                            nY = particles[i].vX*Wyx+particles[i].vY*Wyy;
                    } else { //to make it randomly pick a rot. direction
                            nX = particles[i].vX*Wxx-particles[i].vY*Wxy;
                            nY = -particles[i].vX*Wyx+particles[i].vY*Wyy;
                    }   
                    particles[i].vX = nX + boxes[boxnum].mX;
                    particles[i].vY = nY + boxes[boxnum].mY;
            }   
    }/*}}}*/

我看过 SIMD，虽然我找不到太多相关信息，而且我不完全确定正确提取和打包数据所需的处理是否值得执行一半的指令，因为显然一次只能使用两个 double 。

我尝试使用 shm 和 pthread_barrier 将它分解为多个线程(以同步不同阶段，上面的代码就是其中之一)，但它只会让速度变慢。

我当前的代码执行得非常快；它大约是每 10M 粒子*迭代一秒，从 gprof 可以看出，我 30% 的时间都花在了这个函数上(5000 次调用；PART_COUNT=8192 个粒子花费了 1.8 秒)。我不担心小的、恒定时间的事情，只是上次 512K 粒子 * 50K 迭代 * 1000 次实验花了一个多星期。

我想我的问题是，是否有任何方法可以比循环处理这些长 vector 更有效。感觉应该有，就是找不到。

最佳答案

我不确定 SIMD 会从中受益多少；内部循环非常小而且简单，所以我猜(只是通过观察)你可能比其他任何东西都更受内存限制。考虑到这一点，我会尝试重写循环的主要部分，以免超出需要地接触粒子数组:

const double temp_vX = particles[i].vX - boxes[boxnum].mX;
const double temp_vY = particles[i].vY - boxes[boxnum].mY;

if(boxes[boxnum].rotDir == 1)
{
    nX = temp_vX*Wxx+temp_vY*Wxy;
    nY = temp_vX*Wyx+temp_vY*Wyy;
}
else
{
    //to make it randomly pick a rot. direction
    nX =  temp_vX*Wxx-temp_vY*Wxy;
    nY = -temp_vX*Wyx+temp_vY*Wyy;
}   
particles[i].vX = nX;
particles[i].vY = nY;

这有一个小的潜在副作用，即不在最后进行额外的添加。

另一个潜在的加速是在粒子数组上使用 __restrict，这样编译器可以更好地优化对速度的写入。此外，如果 Wxx 等是全局变量，它们可能必须在每次循环中重新加载，而不是可能存储在寄存器中；使用 __restrict 也会对此有所帮助。

由于您正在按顺序访问粒子，因此您可以尝试预取(例如 GCC 上的 __builtin_prefetch)一些粒子提前以减少缓存未命中。预取盒子有点困难，因为您以不可预测的顺序访问它们；你可以尝试类似的东西

int nextBoxnum = ((((int)(particles[i+1].sX+boxShiftX) /// etc...
// prefetch boxes[nextBoxnum]

我刚刚注意到的最后一个 - 如果 box::rotDir 总是 +/- 1.0，那么你可以像这样消除内部循环中的比较和分支:

const double rot = boxes[boxnum].rotDir; // always +/- 1.0
nX =     particles[i].vX*Wxx + rot*particles[i].vY*Wxy;
nY = rot*particles[i].vX*Wyx +     particles[i].vY*Wyy;

自然地，适用于分析前后的常见警告。但我认为所有这些都可能有所帮助，并且无论您是否切换到 SIMD，都可以完成。

关于c - SIMD 值得吗？有更好的选择吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3276795/

25

4

0

文章推荐： C - 程序结构(避免全局变量、包含等)

文章推荐： python - 使用 boto3 时 S3 连接超时

文章推荐： python - pytest 在辅助函数中断言自省(introspection)

java - JPA 选择(选择)
是否有某种方法可以使用 JPA 或 Hibernate Crtiteria API 来表示这种 SQL？或者我应该将其作为 native 执行吗？ SELECT A.X FROM (SELECT X,
mysql - 选择 1 - 选择 2
在查询中， select id,name,feature,marks from (....) 我想删除其 id 在另一个 select 语句中存在的那些。从 (...) 中选择 id 我是 sql
javascript - 选择 HTML 选择/下拉列表中的项目时会触发什么事件？
我想响应用户在 select 元素中选择一个项目。然而这个 jQuery: $('#platypusDropDown').select(function () { alert('You sel
sql - 选择..来自(选择..来自..)。如何改进此查询？
这个问题在这里已经有了答案: SQL select only rows with max value on a column [duplicate] (27 个回答) 关闭8年前。我正在学习 SQL
php - mysqli查询(选择)不起作用(选择)php
This question already has answers here: “Notice: Undefined variable”, “Notice: Undefined index”, and
php - SQL - 如果存在 - 选择 A - 否则 - 选择 B
我在 php 脚本中调用 SQL。有时“DE”中没有值，如果是这种情况我想从“EN”中获取值应该是这样的，但不是这样的 IF (EXISTS (SELECT epf_application_deta
mysql - 选择 TableName.Col1 VS 选择 Col1
这可能是一个奇怪的问题，但不知道如何研究它。执行以下查询时: SELECT Foo.col1, Foo.col2, Foo.col3 FROM Foo INNER JOIN Bar ON
javascript - 如何在 phonegap 中同时使用相机 API 选择(选择)多张图像？
如何在使用 Camera.DestinationType.FILE_URI. 时在 phonegap camera API 中同时选择或拾取多个图像我能够一次只选择一张图像。我可以使用 this 在
sql-server - 如果存在(选择 1...)与如果存在(选择 TOP 1 1...)
这是一个纯粹的学术问题。这两个陈述实际上是否相同？ IF EXISTS (SELECT TOP 1 1 FROM Table1) SELECT 1 ELSE SELECT 0 相对 IF EXIS
java - JSoup 根据 Id 选择 Div，根据 title 选择 href
我使用 JSoup 来解析 HTML 响应。我有多个 Div 标签。我必须根据 ID 选择 Div 标签。我的伪代码是这样的 Document divTag = Jsoup.connect(link
JavaScript 选择
我正在处理一个具有多个选择框的表单。当用户从 selectbox1 中选择一个选项时，我需要 selectbox2 active 的另一个值。同样，当他选择 selectbox2 的另一个值时，我需要
jQuery 选择
Acme Inc. Christa Woods Charlotte Freeman Jeffrey Walton Ella Hubbard Se
php数据库连接/选择
我有一个login.html其中form定义如下: First Initial Plus Last Name : 我的do_authorize如下: "; pri
JavaScript 选择
$.get( 'http://www.ufilme.ro/api/load/maron_online/470', function(data
Javascript 选择
我有一个下拉列表“磅”、“克”、“千克”和“盎司”。我想要这样一种情况，当我选择 gram 来执行一个函数时，当我在输入字段中输入一个值时，当我选择 pounds 时，我想要另一个函数来执行时我在输入
GLSL channel 选择
我有一个 GLSL 着色器，它从输入纹理的 channel 之一(例如 R)读取，然后写入输出纹理中的同一 channel 。该 channel 必须由用户选择。我现在能想到的就是使用一个 int
html - 如何根据下拉列表中的选定数字生成表单输入字段(选择)
我想根据下拉列表中的选定值生成输入文本框。 Options 2 3 4 5 就在这个选择框之后，一些输入字段应该按照选定的数字出现。最佳答案我建议您使用响应式(Reac
优先选择列值的 SQL 选择
我是 SQL 新手，我想问一下如何根据首选项和分组选择条目。 +----------+----------+------+ | ENTRY_ID | ROUTE_ID | TYPE | +------
sql - 选择 * 进入失败
我有以下表结构: CREATE TABLE [dbo].[UTS_USERCLIENT_MAPPING_USER_LIST] ( [MAPPING_ID] [int] IDENTITY(1,1
vba 选择/删除除第一个以外的所有工作表
我在移除不必要的床单时遇到了问题。我查看了不同的论坛并将不同的解决方案混合在一起。此宏删除工作表(第一张工作表除外)。 Sub wrong() Dim sht As Object Applicati

首页

博学

6Ren·AI

商城

c - SIMD 值得吗？有更好的选择吗？