- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
引用(感谢作者开发和共享算法!):
https://tavianator.com/fast-branchless-raybounding-box-intersections/
Since modern floating-point instruction sets can compute min and max without branches
dmnsn_min(double a, double b)
{
return a < b ? a : b;
}
_mm_max_ps
,但这是 vector 指令。上面的代码显然应该以标量形式使用。
最佳答案
警告:提防编译器即使在严格的FP(非快速运算)模式下也将_mm_min_ps
/_mm_max_ps
(和_pd)内在函数视为可交换的;即使没有asm指令。 GCC专门似乎有以下错误:在GCC7中已修复的PR72867,但对于_mm_min_ss
等标量内在函数(_mm_max_ss has different behavior between clang and gcc,GCC bugzilla PR99497)可能回来了,或者从未修复过。
GCC知道asm指令本身是如何工作的,并且仅使用C/C++内在函数使用它们在普通标量代码中实现严格的FP语义时,就不会出现此问题。
不幸的是,没有一条实现fmin(a,b)
的指令(具有保证的NaN传播),因此您必须在容易检测问题与提高性能之间进行选择。
大多数 vector FP指令具有标量等效项。 MINSS/MAXSS/MINSD/MAXSD是您想要的。他们以您期望的方式处理+/- Infinity。
MINSS a,b
根据IEEE规则精确地实现(a<b) ? a : b
,它包含与零号,NaN和Infinities有关的所有内容。 (即,它使源操作数b
保持无序。)这意味着C++编译器可以将它们用于std::min(b,a)
和std::max(b,a)
,因为这些函数基于相同的表达式。 请注意b,a
函数的std::
操作数顺序,与x86 asm的Intel语法相反,但匹配AT&T语法。MAXSS a,b
完全实现(b<a) ? a : b
,再次将源操作数(b
)保持为无序。像std::max(b,a)
一样。
如果存在x = std::min(arr[i], x);
(即minss
或maxss xmm0, [rsi]
)循环遍历一个数组,则会从内存中获取一个NaN,然后再获取下一个非NaN元素,因为该比较将是无序的。因此,您将获得最后一个NaN之后的元素的最小值或最大值。您通常不希望这样做,因此仅对不包含NaN的数组有用。但这意味着您可以在循环外部以float v = NAN;
开头,而不是第一个元素或FLT_MAX或+ Infinity开头,并且可以简化对可能为空的列表的处理。在asm中也很方便,允许pcmpeqd xmm0,xmm0
的init生成全为一位的位模式(负QNAN),但是不幸的是,GCC的NAN使用了不同的位模式。
演示/证明on the Godbolt compiler explorer,包括显示v = std::min(v, arr[i]);
(或最大)忽略了数组中的NaN,这是以必须加载到寄存器中然后忽略该寄存器为代价的。
(请注意,数组的min应该使用 vector ,而不是标量;最好使用多个累加器来隐藏FP延迟。最后,减少到一个 vector ,然后对其进行horizontal min,就像对数组求和或做点积一样。)
不要尝试在标量浮点数上使用_mm_min_ss
;仅__m128
操作数和Intel's intrinsics don't provide any way to get a scalar float into the low element of a __m128
without zeroing the high elements or somehow doing extra work.提供内在函数。即使最终结果不依赖于上层元素中的任何内容,大多数编译器实际上也会发出无用的指令来执行此操作。 (尽管,Clang经常可以避免这种情况,但是可以对无效 vector 元素的内容应用as-if规则。)没有像__m256 _mm256_castps128_ps256 (__m128 a)
那样仅将浮点数转换为带有上部元素中的垃圾的__m128
的东西。我认为这是设计缺陷。 :/
但幸运的是,您不需要手动执行此操作,编译器知道如何为您使用SSE/SSE2的最小/最大。 只需编写C即可。您问题中的函数是理想的:如下所示(Godbolt链接):
// can and does inline to a single MINSD instruction, and can auto-vectorize easily
static inline double
dmnsn_min(double a, double b) {
return a < b ? a : b;
}
a
和
b
中的任何一个都是NaN,它们都是无序的。这意味着
a<b
,
a==b
和
a>b
均为false。请参见
Bruce Dawson's series of articles on floating point for lots of FP gotchas。)
_mm_min_ss
/
_mm_min_ps
内部函数可能具有也可能没有这种行为。
_mm_min_ps
,甚至gcc4.4或更早的版本,都将-ffast-math
的操作数视为可交换的。 GCC 7最终将其更改为与ICC和clang匹配。
_mm_min_ss
作为MINSS的内在函数。
"_mm_min_ps" NaN
上搜索时,我发现
this real code以及其他有关使用内在函数处理NaN的讨论,因此很明显,许多人期望内在函数的行为类似于asm指令。 (这是我昨天编写的一些代码的结果,并且我已经在考虑将其编写为自我回答的问题与解答。)
_mm_min_ps
的顺序,则会错误地编译您的代码。因此,您可能需要一个
#ifdef
来检测实际的gcc(而不是clang等),以及一种替代方法。或者只是以不同的方式来做它:/也许使用
_mm_cmplt_ps
和 bool 值AND/ANDNOT/OR。
-ffast-math
也会使
_mm_min_ps
在所有编译器上都可交换。
_mm_min_ps
问题仅适用于内在函数:gcc确切了解MINSS/MINPS的工作方式,并使用它们正确实现严格的FP语义(当您不使用-ffast-math时)。
std::min
和std::max
,它们是根据
>
或
<
定义的,并且对NaN行为的要求与
fmin
和
fmax
相同。
除非您需要NaN行为,否则请避免 fmin
and fmax
来提高性能。
min
和
max
函数(或宏,如果您安全地执行此操作)。
float minfloat(float a, float b) {
return (a<b) ? a : b;
}
# any decent compiler (gcc, clang, icc), without any -ffast-math or anything:
minss xmm0, xmm1
ret
// C++
float minfloat_std(float a, float b) { return std::min(a,b); }
# This implementation of std::min uses (b<a) : b : a;
# So it can produce the result only in the register that b was in
# This isn't worse (when inlined), just opposite
minss xmm1, xmm0
movaps xmm0, xmm1
ret
float minfloat_fmin(float a, float b) { return fminf(a, b); }
# clang inlines fmin; other compilers just tailcall it.
minfloat_fmin(float, float):
movaps xmm2, xmm0
cmpunordss xmm2, xmm2
movaps xmm3, xmm2
andps xmm3, xmm1
minss xmm1, xmm0
andnps xmm2, xmm1
orps xmm2, xmm3
movaps xmm0, xmm2
ret
# Obviously you don't want this if you don't need it.
_mm_min_ss
/
_mm_min_ps
,请编写即使没有-ffast-math也可以使编译器实现良好asm的代码。
lowest = _mm_min_ps(lowest, some_loop_variable);
因此保存
lowest
的寄存器可以就地更新(即使没有AVX)。
if(some condition)
lowest = min(lowest, x);
假设可以使用CMPPS对条件进行矢量化处理,因此您有一个元素 vector ,这些元素的位全部置1或全部清零。 (或者,也许您可以直接使用浮点数上的ANDPS/ORPS/XORPS,如果您只关心它们的符号而不关心负零的话。这会在符号位中创建一个真值,并在其他地方带有垃圾。BLENDVPS着眼于仅符号位,因此这可能 super 有用。或者您可以使用
PSRAD xmm, 31
广播符号位。)
x
与
+Inf
混合。或者执行
newval = min(lowest, x);
并将newval混合到
lowest
中。 (BLENDVPS或AND/ANDNOT/OR)。
__m128 inverse_condition = _mm_cmplt_ps(foo, bar);
__m128 x = whatever;
x = _mm_or_ps(x, condition); // turn elements into NaN where the mask is all-ones
lowest = _mm_min_ps(x, lowest); // NaN elements in x mean no change in lowest
// REQUIRES NON-COMMUTATIVE _mm_min_ps: no -ffast-math
// AND DOESN'T WORK AT ALL WITH MOST GCC VERSIONS.
因此,仅使用SSE2,我们已经在两条额外的指令(ORPS和MOVAPS,除非循环展开允许MOVAPS消失)中完成了有条件的MINPS。
关于c - 在x86上给出无分支FP最小值和最大值的指令是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40196817/
我在使用 Android 时遇到了一点问题。 我有我的 GPS 位置,明确的经纬度,以及以米为单位的搜索射线(例如 100 米),可以吗? 想象一下我在射线形成的圆心的位置,我会知道如何在 Andro
深夜的编程之旅 这是一个深夜,街头灯光昏暗,大部分人都已陷入梦乡。但对于我来说,这却是一个灵感迸发的时刻。窗外的星空仿佛在诉说着某种宇宙的密码,而键盘下的代码则是我解密这个宇宙的工具。 一个突如其来的
我将数据集结构定义为 struct Dataset: Hashable { var x: Double var y: Double } 然后是数组 var dataset: [Data
我在 Excel 文件中有一个摘要选项卡,需要查看应计选项卡才能找到 Max和 Min .我遇到的问题是有许多不同的位置/商品组合,我需要找到 Max和 Min基于位置/商品组合。位置和商品位于两个单
我有一个 Excel 表,其中包含两列感兴趣的年份和捐款。年份值为 2008,2009,2010 等... 我想获得 2009 年所有捐款中的最低金额。我试过了 MIN(IF(Year="2009",
到现在为止,我刚刚找到了为列表中多个数据帧中的列获取最大值的解决方案。 我已经将数据帧 df1, df2, df3, ..., dfn 存储在列表 dfList 中,我想获取列 df_ 的最大值$a
假设我有一个列名列表作为向量: vec=c("C1" , "C2" ,"C3"). 我知道这些列名来自数据框 df: df: C1 C2 C3 C4 C5 1 2 3 4 5 1 4
我需要计算大数组的最小值/最大值。我知道Math.max.apply() ,但在大型数组上,它会因堆栈溢出异常而失败。有什么简单的解决方案吗? 最佳答案 使用 sort() 对数组进行排序方法它使用快
例如,我有一个像这样的模型: class Record(models.Model): name = CharField(...) price = IntegerField(...)
我正在编写一个用于测试听力的简单应用,并且正在使用Audiotrack生成纯音。因为它是用于测试听力的应用程序,所以我使用非常低的音量来播放这些音调。 要设置音量,我使用音轨的 setVolume(f
Example data set 对,上面是我的数据集子段图像的链接。它以 3 列为一组,第一个是浓度,第二个是限定值,最后一个是 MDL - 并持续最多 95 个 sample (因此总共 285
我想计算 df 的每 n 行的最小值/最大值,比如 10,但是使用 df.rolling(10).max() 给出第 0-9、1-10、2-11 行的值等。我想要 0-9、10-19、20-29 等
我被问到了关于 c# 的同样问题 here我发现通过使用 linq 你可以轻松地做到这一点。 但是既然 java 中的 linq 没有其他选择,我该如何简单地做到这一点呢? 最佳答案 如果您想要类似于
我曾经使用过数组,并且知道如何对使用数值(double 和 int)的数组进行排序,但我必须使用字符串数组制作相同的应用程序。我的教授不允许我发挥“创造力”,也不允许我与其他可能有助于完成这项工作的静
我想知道通过这样的回溯获得某些事实的最大值(最年长的人)是否是个好主意: data(MaxID, MaxName, MaxAge), \+ (data(ID, Name, Age), ID \= Ma
我想计算 df 的每 n 行的最小值/最大值,比如 10,但是使用 df.rolling(10).max() 给出第 0-9、1-10、2-11 行的值等。我想要 0-9、10-19、20-29 等
我的数据如下所示: df <- tribble( ~A, ~B, 0.2, 0.1, 0.2, 0.3, 0.5, 0.1, 0.7, 0.9,
我有以下数据集 Date Category 2014-01-01 A 2014-01-02 A 2014-01-03 A 2014-01-04
我是使用 Python 进行数据分析的初学者,并且坚持以下几点: 我想使用广播/矢量化方法从各个列 (pandas.dataframe) 中找到最大值(value)。 我的数据框的快照如下: 最佳答案
C99 中是否有一个标准函数来使用给定的比较函数获取给定数组中的最小/最大元素。 类似: void* get_min(void* start,size_t size,size_t elementSiz
我是一名优秀的程序员,十分优秀!