- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想将这样简单的例程重写为SSE2代码,(最好
在nasm中),但我不太确定该怎么做,两件事
不清楚(如何表达计算(内部循环以及来自
外循环)以及如何调用c代码函数“ SetPixelInDibInt(i,j,palette [n]);”
从静态链接的汇编代码下
void DrawMandelbrotD(double ox, double oy, double lx, int N_ITER)
{
double ly = lx * double(CLIENT_Y)/double(CLIENT_X);
double dx = lx / CLIENT_X;
double dy = ly / CLIENT_Y;
double ax = ox - lx * 0.5 + dx * 0.5;
double ay = oy - ly * 0.5 + dy * 0.5;
static double re, im, re_n, im_n, c_re, c_im, rere, imim, int n;
for(int j=0; j<CLIENT_Y; j+=1)
{
for(int i=0; i<CLIENT_X; i+=1)
{
c_re = ax + i * dx;
c_im = ay + j * dy;
re = c_re;
im = c_im;
rere=re*re;
imim=im*im;
n=1;
for(int k=0;k<N_ITER;k++)
{
im = (re+re)*im + c_im;
re = rere - imim + c_re;
rere=re*re;
imim=im*im;
if ( (rere + imim) > 4.0 ) break;
n++;
}
SetPixelInDibInt(i ,j, palette[n]);
}
}
}
最佳答案
英特尔作为AVX示例具有完整的实现。见下文。
使Mandelbrot棘手的是,集合中每个点(即像素)的提前提取条件都不同。您可以保持一对或四像素重复,直到两个像素的大小都超过2.0(或达到最大迭代次数)。否则,将需要跟踪哪个像素点位于哪个矢量元素中。
无论如何,一次简单地实现以2的向量(或带有AVX的4)加倍的向量实现的吞吐量将受到依赖链的等待时间的限制。您需要并行执行多个依赖项链,以保持同时向Haswell的FMA单元供电。因此,您需要复制变量,并在内部循环内对外部循环的两次迭代进行交错操作。
跟踪正在计算哪些像素会有些棘手。我认为使用一组寄存器用于一行像素,而另一组寄存器用于另一行可能会减少开销。 (因此,您始终可以仅向右移动4个像素,而不用检查其他dep链是否已经在处理该矢量。)
我怀疑仅每4次迭代检查一次循环退出条件可能会获胜。根据打包矢量比较来使代码分支,比标量情况要贵一些。所需的额外FP添加也很昂贵。 (Haswell每个周期可以执行两个FMA,(延迟= 5)。单个FP添加单元与FMA单元之一是同一端口。两个FP mul单元位于可以运行FMA的相同端口上。)
可以使用压缩比较检查循环条件以生成零和一的掩码,以及该寄存器与自身的(V)PTEST
来查看其是否全部为零。 (编辑:movmskps
然后test+jcc
的uops较少,但可能会有更高的延迟。)然后,显然je
或jne
适当,这取决于您是否进行了FP比较,当退出时是零,还是零当你不应该。 NAN应该不可能,但是没有理由不选择比较操作,使得NAN将导致退出条件为true。
const __mm256d const_four = _mm256_set1_pd(4.0); // outside the loop
__m256i cmp_result = _mm256_cmp_pd(mag_squared, const_four, _CMP_LE_OQ); // vcmppd. result is non-zero if at least one element < 4.0
if (_mm256_testz_si256(cmp_result, cmp_result))
break;
PTEST
,并且可以使用一些位修改AND掩码,以选择FP值> 4.0时要设置的位。像是指数中的一些位?也许值得考虑。我找到了一个
forum post,但是没有尝试。
c
)设置为0.0,这样就不会再次触发退出条件。也许将像素调度到矢量元素中毕竟是要走的路。这段代码在超线程CPU上可能会做得很好,因为每个元素都会触发很多分支错误预测,从而分别触发提前条件。
vcmpps
直接生成的掩码与AND)。他们的结果表明,AVX(单精度)的速度比标量浮点数提高了7倍,因此,相邻像素以不同的迭代次数达到提前条件的情况显然并不常见。 (至少对于他们测试的缩放/平移。)
movmskps
测试所有大于4.0的元素,然后测试而不是使用
ptest
。我猜想
test / jcc
可以宏融合,并且可以在与FP vector ops不同的执行单元上运行,所以它甚至可能不会更慢。哦,当然,AVX(没有AVX2)没有256位
PTEST
。同样,
PTEST
为2微秒,因此,实际上
movmskps
+
test / jcc
比
ptest + jcc
少微秒。 (
PTEST
是SnB上的1个融合域uop,但对于执行端口仍是2个未融合的uops。在IvB / HSW上,即使在融合域中也是2个uops。)因此,看起来
movmskps
是最佳方法,除非您可以利用
PTEST
中按位与的优势,或者需要测试的不仅仅是每个元素的高位。如果分支是不可预测的,则
ptest
可能会降低等待时间,因此可以通过更快地捕获错误的预测来值得。
关于c - 一些从c到sse2的mandelbrot绘制例程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15986390/
我学习 SDL 二维编程已有一段时间了,现在我想创建一个结合使用 SDL 和 OpenGL 的程序。我是这样设置的: SDL_Init(SDL_INIT_VIDEO); window = SDL_Cr
尝试查找可在地块中使用的不同类型项目的列表 来自不同样本的投影类型: projection = list(type = "equirectangular") projection = list(typ
我正在尝试使用 Java Graphics API 绘制 GIF,但无法使用下面的代码成功绘制 GIF。仅绘制 GIF 的第一张图像或缩略图,但不播放。 public void paintCompon
我目前正在使用 JFrame 并尝试绘制一个矩形,但我不知道如何执行代码 paint(Graphics g),如何获取 Graphics 对象? package com.raggaer.frame;
这个领域的新手,希望得到一些帮助。 我有一个"Missile.java" 类,我在那里画东西。我想绘制一个 ImageView,我正在使用以下代码: ImageView v = (ImageView)
下面列出了圆形的例子 这是我的 JavaScript 代码。 最佳答案 假设您的 randomColor 是正确的,您只需要: 从 canvas.onclick 中移除 context.clearR
我在绘制和缩放 ImageView 时遇到问题。请帮帮我.. 当我画一些东西然后拖动或缩放图像时 - 绘图保留在原处,如您在屏幕截图中所见。而且我只需要简单地在图片上绘图,并且可以缩放和拖动这张图片。
我们可以在形式之外绘制图像和文本...我的意思是在字面上... 我知道问这个问题很愚蠢但是我们能不能... 最佳答案 您可以通过创建表单并将其 TransparentColor 属性设置为背景色来“作
我在绘制/布局期间收到 3 个对象分配警告 super.onDraw(canvas); canvas.drawColor(Color.WHITE); Paint textPaint = new Pai
我有一个示例时间序列数据框: df = pd.DataFrame({'year':'1990','1991','1992','1993','1994','1995','1996',
我试图想出一种简洁的方法来绘制 R 数据框中所有列的 GridView 。问题是我的数据框中既有离散值又有数值。为简单起见,我们可以使用 R 提供的名为 iris 的示例数据集。我会使用 par(mf
我有一个由 10 列和 50 行组成的 data.frame。我使用 apply 函数逐列计算密度函数。现在我想绘制我一次计算的密度。 换句话说,而不是绘图... plot(den[[1]]) plo
我想知道我们如何才能在第一个和第二个组件之外绘制个人,如下所示: 最佳答案 这可能有效: pc.cr <- princomp(USArrests, cor = TRUE) pairs(pc.cr$lo
我是Pandas和matplotlib的新手,想绘制此DataFrame season won team matches pct_won 0 20
我正在尝试为 distplot 子图编写一个 for 循环。 我有一个包含许多不同长度列的数据框。 (不包括 NaN 值) fig = make_subplots( rows=len(asse
我想创建一个具有密度的 3d 图。 我使用函数 density 首先为特定的 x 值创建一个二维图,然后该函数创建密度并将它们放入 y 变量中。现在我有第二组 x 值并将其再次放入密度函数中,然后我得
全部, 我一直在研究全局所有 MTB 步道的索引。我是 Python 人,所以对于所有涉及的步骤,我都尝试使用 Python 模块。 我能够像这样从 OSM 立交桥 API 中获取关系: from O
我正在使用 e1071 包中的支持向量机对我的数据进行分类,并希望可视化机器实际如何进行分类。但是,在使用 plot.svm 函数时,出现无法解决的错误。 脚本: library("e1071") d
我制作了以下图表,它是使用 xts 对象创建的。 我使用的代码很简单 plot(graphTS1$CCLL, type = "l", las = 2, ylab = "(c)\nCC for I
在绘制状态图时,您如何知道哪些状态放在框中,哪些状态用于转换箭头?我注意到转换也是状态。 我正在查看 this page 上的图 1 : 最佳答案 转换不是状态。转换是将对象从一种状态移动到下一种状态
我是一名优秀的程序员,十分优秀!