c - 一些从c到sse2的mandelbrot绘制例程-6ren

c - 一些从c到sse2的mandelbrot绘制例程

转载作者：行者123 更新时间：2023-12-03 17:33:03

25

4

我想将这样简单的例程重写为SSE2代码，（最好
在nasm中），但我不太确定该怎么做，两件事
不清楚（如何表达计算（内部循环以及来自
外循环）以及如何调用c代码函数“ SetPixelInDibInt（i，j，palette [n]）;”
从静态链接的汇编代码下

    void DrawMandelbrotD(double ox, double oy, double lx, int N_ITER)
    {
     double ly = lx * double(CLIENT_Y)/double(CLIENT_X);
     double dx = lx / CLIENT_X;
     double dy = ly / CLIENT_Y;
     double ax = ox - lx * 0.5 + dx * 0.5;
     double ay = oy - ly * 0.5 + dy * 0.5;
    static  double re, im, re_n, im_n, c_re, c_im, rere, imim, int n;

    for(int j=0; j<CLIENT_Y; j+=1)
    {
     for(int i=0; i<CLIENT_X; i+=1)
     {
      c_re = ax + i * dx;
      c_im = ay + j * dy;
      re = c_re;
      im = c_im;
      rere=re*re;
      imim=im*im;
      n=1;

      for(int k=0;k<N_ITER;k++)
      {
        im =  (re+re)*im    + c_im;
        re =   rere - imim  + c_re;
        rere=re*re;
        imim=im*im;
        if ( (rere + imim) > 4.0 ) break;
        n++;
       }
        SetPixelInDibInt(i ,j, palette[n]);
      }
     }
    }

有人可以帮忙，我不想看其他代码
的实现，但是上面的实现只是nasm-sse的翻译
-这对我来说是最有帮助的-有人可以帮忙吗？

最佳答案

英特尔作为AVX示例具有完整的实现。见下文。

使Mandelbrot棘手的是，集合中每个点（即像素）的提前提取条件都不同。您可以保持一对或四像素重复，直到两个像素的大小都超过2.0（或达到最大迭代次数）。否则，将需要跟踪哪个像素点位于哪个矢量元素中。

无论如何，一次简单地实现以2的向量（或带有AVX的4）加倍的向量实现的吞吐量将受到依赖链的等待时间的限制。您需要并行执行多个依赖项链，以保持同时向Haswell的FMA单元供电。因此，您需要复制变量，并在内部循环内对外部循环的两次迭代进行交错操作。

跟踪正在计算哪些像素会有些棘手。我认为使用一组寄存器用于一行像素，而另一组寄存器用于另一行可能会减少开销。（因此，您始终可以仅向右移动4个像素，而不用检查其他dep链是否已经在处理该矢量。）

我怀疑仅每4次迭代检查一次循环退出条件可能会获胜。根据打包矢量比较来使代码分支，比标量情况要贵一些。所需的额外FP添加也很昂贵。（Haswell每个周期可以执行两个FMA，（延迟= 5）。单个FP添加单元与FMA单元之一是同一端口。两个FP mul单元位于可以运行FMA的相同端口上。）

可以使用压缩比较检查循环条件以生成零和一的掩码，以及该寄存器与自身的(V)PTEST来查看其是否全部为零。（编辑：movmskps然后test+jcc的uops较少，但可能会有更高的延迟。）然后，显然je或jne适当，这取决于您是否进行了FP比较，当退出时是零，还是零当你不应该。 NAN应该不可能，但是没有理由不选择比较操作，使得NAN将导致退出条件为true。

const __mm256d const_four = _mm256_set1_pd(4.0);  // outside the loop

__m256i cmp_result = _mm256_cmp_pd(mag_squared, const_four, _CMP_LE_OQ);  // vcmppd.  result is non-zero if at least one element < 4.0
if (_mm256_testz_si256(cmp_result, cmp_result))
    break;

可能有一些方法可以直接在压缩双精度上使用 PTEST，并且可以使用一些位修改AND掩码，以选择FP值> 4.0时要设置的位。像是指数中的一些位？也许值得考虑。我找到了一个 forum post，但是没有尝试。

嗯，糟糕，当循环条件失败时，这不会记录每个矢量元素的单独情况，目的是为Mandelbrot集外的点着色。也许测试是否有任何符合条件的元素（而不是全部），记录结果，然后将该元素（以及该元素的 c）设置为0.0，这样就不会再次触发退出条件。也许将像素调度到矢量元素中毕竟是要走的路。这段代码在超线程CPU上可能会做得很好，因为每个元素都会触发很多分支错误预测，从而分别触发提前条件。

这可能会浪费大量的吞吐量，并且每个周期可以执行4微指令，但是FP mul / add / FMA中只有2微指令可以使用，因此有大量的整数代码可以将点调度到向量元素中。（在没有FMA的Sandybridge / Ivybrideg上，FP吞吐量较低。但是只有3个端口可以处理整数op，其中2个是FP mul和FP add单元的端口。）

由于您不必读取任何源数据，因此每个dep链只有1个内存访问流，而这是一个写流。（它的带宽很低，因为大多数点在准备编写单个像素值之前需要进行很多迭代。）因此，硬件预取流的数量并不是并行运行的Dep链数量的限制因素。。缓存未命中延迟应由写缓冲区隐藏。

如果有人仍然对此感兴趣，我可以编写一些代码（只需发表评论）。我停在高级设计阶段，因为这是一个老问题。

==============

我还发现，英特尔已经使用Mandelbrot集作为其 AVX tutorials之一的示例。他们将mask-off-vector-elements方法用于循环条件。（使用 vcmpps直接生成的掩码与AND）。他们的结果表明，AVX（单精度）的速度比标量浮点数提高了7倍，因此，相邻像素以不同的迭代次数达到提前条件的情况显然并不常见。（至少对于他们测试的缩放/平移。）

他们只是让FP结果继续为那些未能通过提前条件的元素进行累积。他们只是停止增加该元素的计数器。希望大多数系统默认将控制字设置为零异常，如果异常仍然需要额外的周期。

但是，他们的代码在一种方式上很愚蠢：他们使用浮点向量跟踪每个向量元素的迭代计数，然后在使用前将其转换为int。为此，使用打包整数会更快，并且不会占用FP执行单元。哦，我知道他们为什么这样做：AVX（不带AVX2）不支持256位整数矢量操作。他们本来可以使用打包的16位int循环计数器，但这可能会溢出。（而且他们必须将掩码从256b压缩到128b）。

他们还使用 movmskps测试所有大于4.0的元素，然后测试而不是使用 ptest。我猜想 test / jcc可以宏融合，并且可以在与FP vector ops不同的执行单元上运行，所以它甚至可能不会更慢。哦，当然，AVX（没有AVX2）没有256位 PTEST。同样， PTEST为2微秒，因此，实际上 movmskps + test / jcc比 ptest + jcc少微秒。（ PTEST是SnB上的1个融合域uop，但对于执行端口仍是2个未融合的uops。在IvB / HSW上，即使在融合域中也是2个uops。）因此，看起来 movmskps是最佳方法，除非您可以利用 PTEST中按位与的优势，或者需要测试的不仅仅是每个元素的高位。如果分支是不可预测的，则 ptest可能会降低等待时间，因此可以通过更快地捕获错误的预测来值得。

关于c - 一些从c到sse2的mandelbrot绘制例程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15986390/

25

4

0

文章推荐： optimization - 向 BerkeleyDB-JE 插入数据越来越慢

文章推荐： codeigniter - AngularJS 中的实时更新

文章推荐： r - 固定参数总和的R优化

文章推荐：在 OpenGL ES 2.0 中使用 VBO 进行优化

c++ - 使用 SDL_Renderer 绘制 2D 内容，使用 SDL_GLContext 绘制 OpenGL 内容
我学习 SDL 二维编程已有一段时间了，现在我想创建一个结合使用 SDL 和 OpenGL 的程序。我是这样设置的: SDL_Init(SDL_INIT_VIDEO); window = SDL_Cr
绘制 map 投影类型
尝试查找可在地块中使用的不同类型项目的列表来自不同样本的投影类型: projection = list(type = "equirectangular") projection = list(typ
Java 绘制 GIF
我正在尝试使用 Java Graphics API 绘制 GIF，但无法使用下面的代码成功绘制 GIF。仅绘制 GIF 的第一张图像或缩略图，但不播放。 public void paintCompon
Java JFrame 绘制
我目前正在使用 JFrame 并尝试绘制一个矩形，但我不知道如何执行代码 paint(Graphics g)，如何获取 Graphics 对象？ package com.raggaer.frame;
java - 绘制 ImageView
这个领域的新手，希望得到一些帮助。我有一个"Missile.java" 类，我在那里画东西。我想绘制一个 ImageView，我正在使用以下代码: ImageView v = (ImageView)
HTML5 Canvas - 绘制
下面列出了圆形的例子这是我的 JavaScript 代码。最佳答案假设您的 randomColor 是正确的，您只需要: 从 canvas.onclick 中移除 context.clearR
Android在ImageView上缩放、拖动、绘制
我在绘制和缩放 ImageView 时遇到问题。请帮帮我.. 当我画一些东西然后拖动或缩放图像时 - 绘图保留在原处，如您在屏幕截图中所见。而且我只需要简单地在图片上绘图，并且可以缩放和拖动这张图片。
c# - 绘制/绘制外部形式
我们可以在形式之外绘制图像和文本...我的意思是在字面上... 我知道问这个问题很愚蠢但是我们能不能... 最佳答案您可以通过创建表单并将其 TransparentColor 属性设置为背景色来“作
java - 绘制/布局期间的对象分配？
我在绘制/布局期间收到 3 个对象分配警告 super.onDraw(canvas); canvas.drawColor(Color.WHITE); Paint textPaint = new Pai
python - 绘制 Pandas 时间序列数据框的线性回归线的置信区间
我有一个示例时间序列数据框: df = pd.DataFrame({'year':'1990','1991','1992','1993','1994','1995','1996',
r - 绘制 R 数据框中所有列的分布
我试图想出一种简洁的方法来绘制 R 数据框中所有列的 GridView 。问题是我的数据框中既有离散值又有数值。为简单起见，我们可以使用 R 提供的名为 iris 的示例数据集。我会使用 par(mf
r - 绘制 "list"的密度
我有一个由 10 列和 50 行组成的 data.frame。我使用 apply 函数逐列计算密度函数。现在我想绘制我一次计算的密度。换句话说，而不是绘图... plot(den[[1]]) plo
r - 绘制 PCA 的所有组件
我想知道我们如何才能在第一个和第二个组件之外绘制个人，如下所示: 最佳答案这可能有效: pc.cr <- princomp(USArrests, cor = TRUE) pairs(pc.cr$lo
pandas - 绘制 Pandas DataFrame时缺少xticklabels的第一个值
我是Pandas和matplotlib的新手，想绘制此DataFrame season won team matches pct_won 0 20
python - 绘制 Distplot 子图
我正在尝试为 distplot 子图编写一个 for 循环。我有一个包含许多不同长度列的数据框。 (不包括 NaN 值) fig = make_subplots( rows=len(asse
r - 绘制 3d 密度
我想创建一个具有密度的 3d 图。我使用函数 density 首先为特定的 x 值创建一个二维图，然后该函数创建密度并将它们放入 y 变量中。现在我有第二组 x 值并将其再次放入密度函数中，然后我得
python - 绘制 OpenStreetMap 关系不会生成连续线
全部，我一直在研究全局所有 MTB 步道的索引。我是 Python 人，所以对于所有涉及的步骤，我都尝试使用 Python 模块。我能够像这样从 OSM 立交桥 API 中获取关系: from O
r - 绘制 SVM 分类图时出错
我正在使用 e1071 包中的支持向量机对我的数据进行分类，并希望可视化机器实际如何进行分类。但是，在使用 plot.svm 函数时，出现无法解决的错误。脚本: library("e1071") d
r - 绘制 XTS 对象时的变化
我制作了以下图表，它是使用 xts 对象创建的。我使用的代码很简单 plot(graphTS1$CCLL, type = "l", las = 2, ylab = "(c)\nCC for I
uml - 绘制 UML 状态图
在绘制状态图时，您如何知道哪些状态放在框中，哪些状态用于转换箭头？我注意到转换也是状态。我正在查看 this page 上的图 1 : 最佳答案转换不是状态。转换是将对象从一种状态移动到下一种状态

首页

博学

6Ren·AI

商城

c - 一些从c到sse2的mandelbrot绘制例程