c - x86汇编中用于Mandelbrot循环的高效复杂算术-6ren

c - x86汇编中用于Mandelbrot循环的高效复杂算术

转载作者：行者123 更新时间：2023-12-03 09:30:45

25

4

考虑以下程序:

for i=1 to 10000000 do
  z <- z*z + c

其中 z和 c是复数。

使用x87 vs SSE和单精度vs double 算法，此程序的有效x86汇编器实现是什么？

编辑我知道我可以用另一种语言编写并相信编译器可以为我生成最佳的机器代码，但是我这样做是为了学习如何自己编写最佳的x86汇编程序。我已经看过 gcc -O2生成的代码了，我猜想还有很多改进的余地，但是我不擅长亲自编写最佳的x86汇编程序，因此我在这里寻求帮助。

最佳答案

您本身不需要在汇编程序中执行此操作-您可以通过内部函数使用SSE来实现高效的实现，尤其是如果您可以使用单精度的话。

temp.re = z.re * z.re - z.im * z.im;
temp.im = 2.0 * z.re * z.im;
z.re = temp.re + c.re;
z.im = temp.im + c.im;

如果适本地对输入 vector 进行混洗，则可以在一条指令( _mm_mul_ps)中获得所有乘法，而在第二条指令( _mm_hadd_ps)中获得加法。
如果需要 double ，则可以应用相同的通用原理，但是需要两个乘法和两个水平加法。
请注意，大多数现代x86 CPU都有两个标量FPU，因此在SSE中获得 double 的好处可能不值得-单精度绝对可以取胜。

这是一个使用SSE的初始工作实现-我认为现在或多或少已经调试-性能并没有比用gcc -O3编译的标量代码好得多，因为gcc很好地为此生成了SSE代码:

static Complex loop_simd(const Complex z0, const Complex c, const int n)
{
    __m128 vz = _mm_set_ps(z0.im, z0.re, z0.im, z0.re);
    const __m128 vc = _mm_set_ps(0.0f, 0.0f, c.im, c.re);
    const __m128 vs = _mm_set_ps(0.0f, 0.0f, -0.0f, 0.0f);
    Complex z[2];
    int i;

    for (i = 0; i < n; ++i)
    {
        __m128 vtemp;

        vtemp = _mm_shuffle_ps(vz, vz, 0x16); // temp = { z.re, z.im, z.im, z.re }
        vtemp = _mm_xor_ps(vtemp, vs);        // temp = { z.re, -z.im, z.im, z.re }
        vtemp = _mm_mul_ps(vtemp, vz);        // temp = { z.re * z.re, - z.im * z.im, z.re * z.im, z.im * z.re }
        vtemp = _mm_hadd_ps(vtemp, vtemp);    // temp = { z.re * z.re - z.im * z.im, 2 * z.re * z.im, ... }
        vz = _mm_add_ps(vtemp, vc);           // temp = { z.re * z.re - z.im * z.im + c.re, 2 * z.re * z.im + c.im, ... }
    }
    _mm_storeu_ps(&z[0].re, vz);
    return z[0];
}

请注意，内部循环仅是6条SSE指令(实际上应该是5条)+循环本身的一些内务处理:

L4:
    movaps  %xmm0, %xmm1
    shufps  $22, %xmm0, %xmm1
    xorps   %xmm3, %xmm1
    mulps   %xmm1, %xmm0
    haddps  %xmm0, %xmm0
    addps   %xmm2, %xmm0
    incl    %eax
    cmpl    %edi, %eax
    jne L4
L2:

关于c - x86汇编中用于Mandelbrot循环的高效复杂算术，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10329903/

25

4

0

文章推荐： angularjs - Spring Boot Web 应用程序中的 Angular 路由

文章推荐： AngularJS ui.router 父 Controller 触发器

文章推荐： javascript - 将 JavaScript 中的 HTTP header 添加到图像请求中

python - 像素着色器中的 Mandelbrot
我现在在 Mandelbrot 集的 DirectX 11 版本上工作了几天。到目前为止，我所做的是创建一个带有纹理的四边形。我可以使用 Pixel Shader 为点着色，但由于某种原因，Pixel
javascript - Mandelbrot 设置渲染速度太慢
我在 Javascript 上编写了一个程序，用于创建 mandelbrot 分形，并将其绘制在 html Canvas 中。我的渲染方法是每行迭代，从 0 到 500 像素，然后简单地执行一个循环，
c# - Mandelbrot 程序没有输出正确的数据
我的类(class)布置了一项作业，要求我编写一个程序来绘制曼德尔布洛特图形。我们必须基本上让程序绘制结果的位图。问题是，我的 CalcMBF 函数只输出 2 作为 Mandelbrot 数。我
c++ - Mandelbrot 集未显示在中心
我认为问题在于我如何将笛卡尔坐标转换为复数，但我现在知道如何操作了。你能解释一下我应该如何转换吗？这是我尝试过的: double c_Im = (y + (maxIm - minIm)) / heig
c++ - Mandelbrot 集缩放
我是 C++ 编程的新手，为了改进，我正在尝试制作一个 mandelbrot set consol 应用程序。我已经让它几乎完美地工作:图像生成，我可以放大/缩小，并且非常容易地四处移动。不过，我遇到
java - Mandelbrot 集的视觉表示
我想使用 Java 生成 Mandelbrot 集的 PNG 照片，输出应该可以在 Google 图片搜索中轻松找到。该集合定义为以下序列: z_n+1 = z_n^2 + c 其中 c 和 z 是
java - Mandelbrot 集缩放和平移
我用 Java 编写了一个 Mandelbrot 集分形，并包含了在一定程度上平移和放大分形的功能。唯一的问题是，当我平移图像并尝试放大时，它看起来好像试图放大中心并平移一点。平移和缩放并不是真正的平
python - Mandelbrot 设置平滑着色函数
我用 python 编写了 Mandelbrot 集，但它看起来很奇怪，所以我搜索了平滑的颜色。我已经使用对数和线性插值编写了一个平滑的着色函数，但无论我尝试什么，我都无法得到我想要的: self.p
控制放大 Mandelbrot 集的位置
我编写了一个简单的片段着色器来渲染 mandelbrot 集。我正在使用 c 语言和使用 glsl 的 opengl 执行此操作。 #version 330 core in vec2 fCoord;
C++ Mandelbrot 程序不会产生正确的输出
我正在尝试制作一个程序，通过制作一个 .PPM 文件来生成标准 Mandelbrot 集的图像。该程序没有生成有效的 PPM 文件，我不知道为什么。这是我的代码: #include #includ
algorithm - Mandelbrot 集的平滑着色算法
我知道已经回答了很多关于此的问题。然而，我的略有不同。每当我们实现我所理解的平滑着色算法时。 mu = 1 + n + math.log2(math.log2(z)) / math.log2(2)
algorithm - Mandelbrot 集边界的保守绘制
mandelbrot 集包含 mandelbrot 迭代有界的点，迭代点永远不会“逃逸”。让我们将边界定义为点，其中迭代点在 N 次迭代后逃逸(逃逸我的意思是与原点的距离变得大于 2)。是否可以保
c++ - Mandelbrot 缩放但图像移动并缩小
我一直在做 Mandelbrot 集并尝试缩放，但缩放模式变得非常麻烦。当我缩放时，它会完美缩放，但图像尺寸会缩小到原始尺寸的一半。下次我再次缩放时，图片尺寸会增加并尝试跳过查看窗口。代码在 c++/
algorithm - Mandelbrot 集渲染的平滑频谱
我目前正在编写一个程序来生成非常巨大的(65536x65536 像素及以上)Mandelbrot 图像，并且我想设计一个光谱和着色方案来使它们公平。 wikipedia featured mandel
c++ - Mandelbrot 扰动如何工作？
谁能解释一下扰动是如何描述的in this paper加速渲染 Mandelbrot 集？我知道如何使用对每个像素执行多次迭代的传统方法来渲染 Mandelbrot 集，但我不太明白那篇论文中描述的
python - Mandelbrot 集显示不正确
这是我尝试使用 Pygame 模块在 Python 3.5 中编写 Mandelbrot 集。 import math, pygame pygame.init() def mapMandelbrot(
C Mandelbrot 集着色
我正在使用 C 编写以下代码。到目前为止，它一直在工作，并且已缩放到正确的级别等，但是我正在努力让颜色按我想要的方式工作。理想情况下，无论颜色如何，我都希望得到这样的结果: 但是我的程序如下所示，目前
zooming - 如何放大 mandelbrot 集？
我可以生成从 minReal 到 maxReal 以及从 minImaginary 到 maxImaginary 的 Mandelbrot 集的 400x400 图像。所以， makeMandel(m
python - Mandelbrot 在复数中设置绘图和 ZeroDivisionError
我正在编写绘制 Mandelbrot 集版本的代码。当它运行时，它接受两个输入 a 和 b，并将其转换为一个复数(例如 complex(a,b))。然后它绘制一个 Mandelbrot 集，其中 z
opencl - MandelBrot 设置使用 openCL
尝试使用与我在使用 TBB(线程构建块)运行时使用的代码相同的代码(有点)。我对 OpenCL 没有太多经验，但我认为大部分主要代码是正确的。我相信错误在 .cl文件，它在那里进行数学运算。这是我

首页

博学

6Ren·AI

商城

c - x86汇编中用于Mandelbrot循环的高效复杂算术