- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
为什么 _mm_extract_ps
返回 int
而不是 float
?
从 C 中的 XMM 寄存器读取单个 float
的正确方法是什么?
或者更确切地说,另一种提问方式是:_mm_set_ps
指令的反义词是什么?
最佳答案
似乎没有一个答案能真正回答问题,为什么它返回 int
。
原因是,extractps
指令实际上是将 vector 的一个分量复制到一个通用寄存器中。它返回一个 int 看起来确实很愚蠢,但这就是实际发生的事情 - 原始浮点值最终出现在一个通用寄存器中(它保存整数)。
如果您的编译器配置为为所有浮点运算生成 SSE,那么最接近将值“提取”到寄存器的方法是将该值混洗到 vector 的低位分量中,然后将其转换为标量漂浮。这应该会导致 vector 的该组件保留在 SSE 寄存器中:
/* returns the second component of the vector */
float foo(__m128 b)
{
return _mm_cvtss_f32(_mm_shuffle_ps(b, b, _MM_SHUFFLE(0, 0, 0, 2)));
}
_mm_cvtss_f32
内在函数是免费的,它不会生成指令,它只会让编译器将 xmm 寄存器重新解释为 float
,因此它可以原样返回。
_mm_shuffle_ps
将所需的值放入最低的组件中。 _MM_SHUFFLE
宏为生成的 shufps
指令生成一个立即操作数。
示例中的 2
从 127:0 寄存器的第 95:64 位获取 float (从头开始的第 3 个 32 位组件,按内存顺序)并将其放入 31:寄存器的 0 部分(开头,按内存顺序)。
生成的代码很可能会自然地返回寄存器中的值,就像任何其他浮点值返回一样,不会低效地写入内存并读回。
如果您生成的代码使用 x87 FPU 进行浮点运算(对于没有 SSE 优化的普通 C 代码),这可能会导致生成低效的代码——编译器可能会存储SSE vector 然后使用 fld
将其读回 x87 寄存器堆栈。一般来说,64 位平台不使用 x87(它们对所有 float 使用 SSE,主要是标量指令,除非编译器进行矢量化)。
我应该补充一点,我总是使用 C++,所以我不确定在 C 中按值或指针传递 __m128 是否更有效。在 C++ 中,我会使用 const __m128 &
这种代码将在 header 中,因此编译器可以内联。
关于c - 英特尔 SSE : Why does `_mm_extract_ps` return `int` instead of `float` ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5526658/
询问 unrelated question我有这样的代码: public boolean equals(Object obj) { if (this == obj) retur
在我之前的一个问题中 js: Multiple return in Ternary Operator我询问了有关使用三元运算符返回多个参数的问题。但是现在参数IsActveUser boolean(t
假设我有一个带有 return 的 if 语句。从效率的角度来看,我应该使用 if(A > B): return A+1 return A-1 或 if(A > B): return
例如考虑以下代码: int main(int argc,char *argv[]) { int *p,*q; p = (int *)malloc(sizeof(int)*10); q
PyCharm 对这段代码发出警告,说最后一个返回是不可访问的: def foo(): with open(...): return 1 return 0 如果 ope
我想实现这样的目标: 如果在返回 Json 的方法中抛出异常,则返回 new Json(new { success = false, error = "unknown"}); 但如果方法返回 View
它是多余的,但我正在学习 JS,我想知道它是如何工作的。 直接从模块返回函数 let func1 = function () { let test = function () {
我不明白我应该使用什么。我有两页 - intro.jsp(1) 和 booksList.jsp(2)。我为每一页创建了一个 Controller 类。第一页有打开第二页的按钮:
我最近在 Joomla 组件(Kunena,更准确地说是 Kunena)中看到这段代码,那么使用 $this->return VS 简单的 return 语句有什么区别. 我已经用谷歌搜索了代码,但没
我的类实现了 IEnumerable。并且可以编译这两种方式来编写 GetEnumerator 方法: public IEnumerator GetEnumerator() { yield r
我只是在编码,我想到了一个简单的想法(显然是问题),如果我有一个像这样的函数: int fun1(int p){ return(p); } 我有一个这样的函数: int fun1(int p){
这个问题在这里已经有了答案: What does the comma operator do in JavaScript? (5 个答案) 关闭 9 年前。 function makeArray
假设我写了一个 for 循环,它将输出所有数字 1 到 x: x=4 for number in xrange(1,x+1): print number, #Output: 1 2 3 4 现
我最近在这个 Apache Axis tutorial example. 中看到了下面的一段代码 int main() { int status = AXIS2_SUCCESS; ax
function a(){ return{ bb:"a" } } and function a(){ return { bb:"a" } } 这两个代码有什么区别吗,如果有请
function a() { return 1; } function b() { return(1); } 我在 Chrome 的控制台中测试了上面的代码,都返回了 1。 function c()
考虑这三个函数: def my_func1(): print "Hello World" return None def my_func2(): print "Hello World"
这可能是一个愚蠢的问题,但我正在努力,如果有一种简明的方法来测试函数的返回结果,如果它不满足条件,则返回该值(即,传递它)。。现在来回答一个可能的问题,是的,我正在寻找的类似于例外提供的东西。然而,作
我正在测试一个函数,并尝试使用 return 来做什么,并在 PowerShell 5.1 和 PwSh 7.1 中偶然发现了一个奇怪的问题,即 return cmdlet似乎不适合在团体中工作: P
这个问题已经有答案了: Return in generator together with yield (2 个回答) Why can't I use yield with return? (5 个回
我是一名优秀的程序员,十分优秀!