- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是我要转换的代码:VDT's Pade Exp fast_ex() approx的double
版本(这是old repo资源):
inline double fast_exp(double initial_x){
double x = initial_x;
double px=details::fpfloor(details::LOG2E * x +0.5);
const int32_t n = int32_t(px);
x -= px * 6.93145751953125E-1;
x -= px * 1.42860682030941723212E-6;
const double xx = x * x;
// px = x * P(x**2).
px = details::PX1exp;
px *= xx;
px += details::PX2exp;
px *= xx;
px += details::PX3exp;
px *= x;
// Evaluate Q(x**2).
double qx = details::QX1exp;
qx *= xx;
qx += details::QX2exp;
qx *= xx;
qx += details::QX3exp;
qx *= xx;
qx += details::QX4exp;
// e**x = 1 + 2x P(x**2)/( Q(x**2) - P(x**2) )
x = px / (qx - px);
x = 1.0 + 2.0 * x;
// Build 2^n in double.
x *= details::uint642dp(( ((uint64_t)n) +1023)<<52);
if (initial_x > details::EXP_LIMIT)
x = std::numeric_limits<double>::infinity();
if (initial_x < -details::EXP_LIMIT)
x = 0.;
return x;
}
__m128d PExpSSE_dbl(__m128d x) {
__m128d initial_x = x;
__m128d half = _mm_set1_pd(0.5);
__m128d one = _mm_set1_pd(1.0);
__m128d log2e = _mm_set1_pd(1.4426950408889634073599);
__m128d p1 = _mm_set1_pd(1.26177193074810590878E-4);
__m128d p2 = _mm_set1_pd(3.02994407707441961300E-2);
__m128d p3 = _mm_set1_pd(9.99999999999999999910E-1);
__m128d q1 = _mm_set1_pd(3.00198505138664455042E-6);
__m128d q2 = _mm_set1_pd(2.52448340349684104192E-3);
__m128d q3 = _mm_set1_pd(2.27265548208155028766E-1);
__m128d q4 = _mm_set1_pd(2.00000000000000000009E0);
__m128d px = _mm_add_pd(_mm_mul_pd(log2e, x), half);
__m128d t = _mm_cvtepi64_pd(_mm_cvttpd_epi64(px));
px = _mm_sub_pd(t, _mm_and_pd(_mm_cmplt_pd(px, t), one));
__m128i n = _mm_cvtpd_epi64(px);
x = _mm_sub_pd(x, _mm_mul_pd(px, _mm_set1_pd(6.93145751953125E-1)));
x = _mm_sub_pd(x, _mm_mul_pd(px, _mm_set1_pd(1.42860682030941723212E-6)));
__m128d xx = _mm_mul_pd(x, x);
px = _mm_mul_pd(xx, p1);
px = _mm_add_pd(px, p2);
px = _mm_mul_pd(px, xx);
px = _mm_add_pd(px, p3);
px = _mm_mul_pd(px, x);
__m128d qx = _mm_mul_pd(xx, q1);
qx = _mm_add_pd(qx, q2);
qx = _mm_mul_pd(xx, qx);
qx = _mm_add_pd(qx, q3);
qx = _mm_mul_pd(xx, qx);
qx = _mm_add_pd(qx, q4);
x = _mm_div_pd(px, _mm_sub_pd(qx, px));
x = _mm_add_pd(one, _mm_mul_pd(_mm_set1_pd(2.0), x));
n = _mm_add_epi64(n, _mm_set1_epi64x(1023));
n = _mm_slli_epi64(n, 52);
// return?
}
if (initial_x > details::EXP_LIMIT)
x = std::numeric_limits<double>::infinity();
if (initial_x < -details::EXP_LIMIT)
x = 0.;
return x;
/* multiply by power of 2 */
z *= details::uint322sp((n + 0x7f) << 23);
if (initial_x > details::MAXLOGF) z = std::numeric_limits<float>::infinity();
if (initial_x < details::MINLOGF) z = 0.f;
return z;
n = _mm_add_epi32(n, _mm_set1_epi32(0x7f));
n = _mm_slli_epi32(n, 23);
return _mm_mul_ps(z, _mm_castsi128_ps(n));
最佳答案
是的,将两个多项式相除通常可以比一个庞大的多项式在速度和精度之间取得更好的折衷。只要有足够的工作来隐藏divpd
吞吐量即可。 (最新的x86 CPU具有相当不错的FP划分吞吐量。仍然很难与乘除相乘,但是它只有1个uop,因此,如果您很少使用它(即与很多乘以混合在一起),它不会使管道停顿。包括在周围的代码中使用exp
)
但是,_mm_cvtepi64_pd(_mm_cvttpd_epi64(px));
不适用于SSE2。 Packed-conversion intrinsics to/from 64-bit integers requires AVX512DQ。
要将打包舍入到最接近的整数,理想情况下,您应使用SSE4.1 _mm_round_pd(x, _MM_FROUND_TO_NEAREST_INT |_MM_FROUND_NO_EXC)
(或将截断符向零,或将floor或ceil移至-+ Inf)。
但是我们实际上并不需要。
标量代码以int n
和double px
结尾,它们都表示相同的数值。它使用bad/buggy floor(val+0.5)
idiom而不是rint(val)
或nearbyint(val)
四舍五入到最接近的值,然后将已经整数的double
转换为int
(具有C++的截断语义,但这并不重要,因为double
值已经是一个精确的整数。)
使用SIMD内部函数,似乎最简单的方法是将其转换为32位整数然后返回。
__m128i n = _mm_cvtpd_epi32( _mm_mul_pd(log2e, x) ); // round to nearest
__m128d px = _mm_cvtepi32_pd( n );
double
中,您需要进行洗牌。
n
的高64位将为零,因此我们可以使用它来创建64位整数
n
,并与 double 字对齐:
n = _mm_shuffle_epi32(n, _MM_SHUFFLE(3,1,2,0)); // 64-bit integers
double
和
int
之间的压缩转换至少要花费2 uops,因此总共要花费4 uop。但是这些uop中只有2 uops需要FMA单元,并且您的代码可能不会在端口5上成为所有这些瓶颈相乘并相加。
double
相隔1个整数,因此常规FP舍入可以满足您的要求。 (这适用于不适合32位的输入,但不适用于
double
> 2 ^ 52。因此无论哪种方式都可以。)另请参见
How to efficiently perform double/int64 conversions with SSE/AVX?使用该技巧。不过,我找不到关于SO的示例。
_ps
(打包的单精度float
)。 double
。 libmvec
。 Then of course I need to check the whole, since I'm not quite sure I've converted it correctly.
double
位模式是不切实际的,与
float
仅有40亿个不同,但是也许迭代所有尾数的低32位都为零的
double
会是一个好的开始。即与
bitpatterns = _mm_add_epi64(bitpatterns, _mm_set1_epi64x( 1ULL << 32 ));
doubles = _mm_castsi128_pd(bitpatterns);
float
版本完全没有进行范围检查。如果您的输入将始终在范围内,或者您不关心超出范围的输入会发生什么,那么这显然是最快的方法。
__m128d out_of_bounds = _mm_cmplt_pd( limit, abs(initial_x) ); // abs = mask off the sign bit
result = _mm_or_pd(result, out_of_bounds);
if(x) y=0;
,而不是
y = (condition) ? 0 : y;
。
SIMD比较会产生全零/全一元素的掩码,因此您可以使用它进行混合。
_ps
版本请参见
SSE intrinsics for comparison (_mm_cmpeq_ps) and assignment operation,
_pd
是相同的。
; result in xmm0 (in need of fixups for out of range inputs)
; initial_x in xmm2
; constants:
; xmm5 = limit
; xmm6 = +Inf
cmpltpd xmm2, xmm5 ; xmm2 = input_x < limit ? 0xffff... : 0
andpd xmm0, xmm2 ; result = result or 0
andnpd xmm2, xmm6 ; xmm2 = 0 or +Inf (In that order because we used ANDN)
orpd xmm0, xmm2 ; result |= 0 or +Inf
; xmm0 = (input < limit) ? result : +Inf
initial_x
,因此编译器需要在计算
result
的某个时候复制该寄存器, 尽管。)
0.0
由全零位模式表示,因此请进行比较,如果在范围内,则将生成true,并将其与输出进行比较。 (将其保留不变或将其强制为+0.0)。这比
_mm_blendv_pd
更好,后者在大多数Intel CPU上的成本为2 uop(而AVX 128位版本在Intel上的价格始终为2 uop)。而且在AMD或Skylake上也并不差。
+-Inf
用有效位= 0,指数=全1的位模式表示。 (有效位数中的任何其他值都表示+ -NaN。)由于输入过大可能仍会留下非零有效位数,因此我们不能只是将比较结果与或与最终结果进行“或”运算。我认为我们需要进行常规混合,或进行一些昂贵的混合(3 uops和 vector 常量)。
initial_x
的符号位并执行
_mm_cmplt_pd(abs_initial_x, _mm_set1_pd(details::EXP_LIMIT))
)。但是,然后您必须理清是否为零或设置为+ Inf。
_mm_blendv_pd
使用SSE4.1,则可以将
initial_x
本身用作可能需要应用的修订的混合控件,因为
blendv
仅关心混合控件的符号位(与AND/ANDN/OR版本不同,位需要匹配。)
__m128d fixup = _mm_blendv_pd( _mm_setzero_pd(), _mm_set1_pd(INFINITY), initial_x ); // fixup = (initial_x signbit) ? 0 : +Inf
// see below for generating fixup with an SSE2 integer arithmetic-shift
const signbit_mask = _mm_castsi128_pd(_mm_set1_epi64x(0x7fffffffffffffff)); // ~ set1(-0.0)
__m128d abs_init_x = _mm_and_pd( initial_x, signbit_mask );
__m128d out_of_range = _mm_cmpgt_pd(abs_init_x, details::EXP_LIMIT);
// Conditionally apply the fixup to result
result = _mm_blendv_pd(result, fixup, out_of_range);
cmplt
是NaN 会发生什么情况,则可能使用
cmpgt
而不是
initial_x
并重新排列。选择比较为false时,将应用修正而不是true,这意味着对于-NaN或+ NaN的输入,无序比较将导致0或+ Inf。这仍然不进行NaN传播。如果要实现此目的,可以将
_mm_cmpunord_pd(initial_x, initial_x)
和OR或为
fixup
。
blendvpd
只有1 uop,这应该非常不错。 (VEX编码
vblendvpd
为2 uops,具有3个输入和一个单独的输出。)
fixup
或
_mm_and_pd
来创建
_mm_andnot_pd
。
double
中的每个位置都不有效:
psraq
不存在,只有
psraw/d
。只有逻辑移位才采用64位元素大小。
fixup
,只需一个整数移位和掩码,然后按位反转
__m128i ix = _mm_castsi128_pd(initial_x);
__m128i ifixup = _mm_srai_epi32(ix, 11); // all 11 bits of exponent field = sign bit
ifixup = _mm_and_si128(ifixup, _mm_set1_epi64x(0x7FF0000000000000ULL) ); // clear other bits
// ix = the bit pattern for 0 (non-negative x) or +Inf (negative x)
__m128d fixup = _mm_xor_si128(ifixup, _mm_set1_epi32(-1)); // bitwise invert
fixup
混合到
result
中,以正常进行超出范围的输入。
abs(initial_x) > details::EXP_LIMIT
initial_x
进行平方运算,则可以与
EXP_LIMIT
平方进行比较。但这不是,
xx = x*x
仅在进行一些计算以创建
x
之后发生。
VFIXUPIMMPD
可能会很方便。它设计用于特殊情况输出来自“特殊”输入(例如NaN和+ -Inf,负,正或零)的功能,从而节省了这些情况的比较。 (例如,对于x = 0的Newton-Raphson倒数(x)之后的情况。)
initial_x * initial_x - details::EXP_LIMIT * details::EXP_LIMIT
即可创建对abs(initial_x) < details::EXP_LIMIT
为负数的结果,否则为非负数。
vfixupimmpd
仅为1 uop。
关于c++ - 如何将VDT的Pade Exp fast_ex()双重版本的标量代码转换为SSE2?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54364694/
我正在尝试将一个字符串逐个字符地复制到另一个字符串中。目的不是复制整个字符串,而是复制其中的一部分(我稍后会为此做一些条件......) 但我不知道如何使用迭代器。 你能帮帮我吗? std::stri
我想将 void 指针转换为结构引用。 结构的最小示例: #include "Interface.h" class Foo { public: Foo() : mAddress((uint
这有点烦人:我有一个 div,它从窗口的左上角开始过渡,即使它位于文档的其他任何位置。我试过 usign -webkit-transform-origin 但没有成功,也许我用错了。有人可以帮助我吗?
假设,如果将 CSS3 转换/转换/动画分配给 DOM 元素,我是否可以检测到该过程的状态? 我想这样做的原因是因为我正在寻找类似过渡链的东西,例如,在前一个过渡之后运行一个过渡。 最佳答案 我在 h
最近我遇到了“不稳定”屏幕,这很可能是由 CSS 转换引起的。事实上,它只发生在 Chrome 浏览器 上(可能还有 Safari,因为一些人也报告了它)。知道如何让它看起来光滑吗?此外,您可能会注意
我正在开发一个简单的 slider ,它使用 CSS 过渡来为幻灯片设置动画。我用一些基本样式和一些 javascript 创建了一支笔 here .注意:由于 Codepen 使用 Prefixfr
我正在使用以下代码返回 IList: public IList FindCodesByCountry(string country) { var query =
如何设计像这样的操作: 计算 转化 翻译 例如:从“EUR”转换为“CNY”金额“100”。 这是 /convert?from=EUR&to=CNY&amount=100 RESTful 吗? 最佳答
我使用 jquery 组合了一个图像滚动器,如下所示 function rotateImages(whichHolder, start) { var images = $('#' +which
如何使用 CSS (-moz-transform) 更改一个如下所示的 div: 最佳答案 你可以看看Mozilla Developer Center .甚至还有例子。 但是,在我看来,您的具体示例不
我需要帮助我正在尝试在选中和未选中的汉堡菜单上实现动画。我能够为菜单设置动画,但我不知道如何在转换为 0 时为左菜单动画设置动画 &__menu { transform: translateX(
我正在为字典格式之间的转换而苦苦挣扎:我正在尝试将下面的项目数组转换为下面的结果数组。本质上是通过在项目第一个元素中查找重复项,然后仅在第一个参数不同时才将文件添加到结果集中。 var items:[
如果我有两个定义相同的结构,那么在它们之间进行转换的最佳方式是什么? struct A { int i; float f; }; struct B { int i; float f; }; void
我编写了一个 javascript 代码,可以将视口(viewport)从一个链接滑动到另一个链接。基本上一切正常,你怎么能在那里看到http://jsfiddle.net/DruwJ/8/ 我现在的
我需要将文件上传到 meteor ,对其进行一些图像处理(必要时进行图像转换,从图像生成缩略图),然后将其存储在外部图像存储服务器(s3)中。这应该尽可能快。 您对 nodejs 图像处理库有什么建议
刚开始接触KDB+,有一些问题很难从Q for Mortals中得到。 说,这里 http://code.kx.com/wiki/JB:QforMortals2/casting_and_enumera
我在这里的一个项目中使用 JSF 1.2 和 IceFaces 1.8。 我有一个页面,它基本上是一大堆浮点数字段的大编辑网格。这是通过 inputText 实现的页面上的字段指向具有原始值的值对象
ScnMatrix4 是一个 4x4 矩阵。我的问题是什么矩阵行对应于位置(ScnVector3),旋转(ScnVector4),比例(ScnVector3)。第 4 行是空的吗? 编辑: 我玩弄了
恐怕我是 Scala 新手: 我正在尝试根据一些简单的逻辑将 Map 转换为新 Map: val postVals = Map("test" -> "testing1", "test2" -> "te
输入: This is sample 1 This is sample 2 输出: ~COLOR~[Green]This is sample 1~COLOR~[Red]This is sam
我是一名优秀的程序员,十分优秀!