- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我面临的任务是打乱一个 _m128
vector 并将结果存储在另一个 vector 中。
在我看来,有两种基本方法可以打乱压缩浮点 _m128
vector :
_mm_shuffle_ps
,它使用 SHUFPS
指令,如果您只想从一个 vector 中获取值,则该指令不一定是最佳选择:它从目标操作数中获取两个值,意味着额外的一步。_mm_shuffle_epi32
,它使用 PSHUFD
指令,该指令似乎完全符合此处的预期,并且可以比 SHUFPS
具有更好的延迟/吞吐量。然而,后者内在函数适用于整数 vector (_m128i
),并且似乎没有对应的 float ,因此将它与 _m128
一起使用需要进行一些丑陋的显式转换。此外,没有这样的对应物这一事实可能意味着存在一些我不知道的正当理由。
问题是为什么没有内在函数来打乱一个浮点 vector 并将结果存储在另一个 vector 中?
如果_mm_shuffle_ps(x,x, ...)
可以生成PSHUFPD
,是否可以保证?
如果 PSHUFD
不应该用于浮点值,那是什么原因?
谢谢!
最佳答案
内在函数应该与指令一对一映射。 _mm_shuffle_ps 生成 PSHUFD 是非常不可取的。它应该始终生成 SHUFPS。该文档并未表明存在其他情况。
当数据转换为单精度或 double float 时,某些处理器会出现性能下降。这是因为处理器使用包含数据的 FP 分类的内部寄存器来扩充 SSE 寄存器,例如零或 NaN 或无穷大或正常。切换类型时,您会在执行该步骤时遇到停顿。我不知道现代处理器是否仍然如此,但您可以查阅英特尔架构优化手册以获取该信息。
SHUFPS 在现代处理器上并不比 PSHUFD 慢很多。根据 Agner Fog 的指令表 (http://www.agner.org/optimize/instruction_tables.pdf),它们在 Haswell(第 4 代 Core i7)上具有相同的延迟和吞吐量。在 Nehalem(第一代 Core i7)上,它们具有相同的延迟,但 PSHUFD 的吞吐量为 2 个/周期,而 SHUFPS 的吞吐量为 1 个/周期。因此,即使您忽略了与切换类型相关的性能损失,也不能说一条指令在所有处理器中都比另一条指令更受青睐。
还有一种在 __m128、__m128d 和 __m128i 之间转换的方法: _mm_castXX_YY ( https://software.intel.com/en-us/node/695375?language=es ) 其中 XX 和 YY 分别是 ps、pd 或 si128。例如,_mm_castps_pd()。这确实是一个坏主意,因为 PSHUFD 运行速度更快的处理器会遭受与之后切换回 FP 相关的性能损失。换句话说,没有比执行 SHUFPS 更快的方法来执行 SHUFPS。
关于c++ - 为什么 `PSHUFD` 指令没有浮点内在?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43495363/
这个问题已经有答案了: Invalid types 'double [100][double]' for array subscript (3 个回答) 已关闭 6 年前。 我已复制下面的整个代码并在
您有 2 个功能; f(x)= x(((x+1)^(1/2))-(x^(1/2))) g(x)= x/(((x+1)^(1/2))+(x^(1/2))) 哪个更准确? 旁注:如果你能解释为什么,
我正在从事一个关于java的研究项目,其中必须完成一些艰难的计算。然而,我已经完成了大部分工作,但停留在某个点上。我必须计算以下内容: (2.1-2.3) raised to power 0.3. 但
int main() { float x = 50; float y = 1/x; float result = y * x; float test = 41;
有没有安全的方法来可靠地确定整数类型 T可以存储浮点整数值 f (所以 f == floor(f) )没有任何溢出? 请记住,不能保证浮点类型 F与 IEC 559 (IEEE 754) 兼容,并且有
// value will always be in the range of [0.0 - maximum] float obtainRatio(float value, float maximum
就在今天,我遇到了我们正在使用的第三方软件,在他们的示例代码中,有以下内容: // Defined in somewhere.h static const double BAR = 3.14; //
是否有推荐的方法来清除 jQuery Flot 图表?我在 API 引用中找不到任何内容。 最佳答案 “清除”是指“破坏整个图表”还是只是清除数据? 要核对整个图表:$('#canvas_id').e
我正在学习单精度并想了解错误传播。根据this nice website ,加法是一个危险的操作。 所以我编写了一个小的 C 程序来测试错误累积的速度。我不完全确定这是否是一种有效的测试方法。如果是,
我正在尝试查询数据库,我需要获取权重等于 60.5 的客户列表。问题是 60.5 是一个实数,我以前从未在 where 子句中使用实数查询过数据库。 我已经尝试过这个: SELECT Name FRO
这是我的“ProjectEntity”类中的代码部分(我在其中使用 hibernate 进行 SQL 调用) @Column(name = "BUDGET") private float budget
我用 Haskell 编写了一个应用程序,它调用 Z3 求解器来解决一些复杂公式的约束。感谢 Haskell,我可以快速切换正在使用的数据类型。 当使用 SBV 的 AlgReal 类型进行计算时,我
在 C 中 double/float 有一个集合类型说明符:%f %F %g %G %e %E .有什么区别吗 %f和 %F , %g和 %G , %e和 %E ? 根据 printf和 scanf输
我正在开发一个适用于 Android 的可视化应用程序(包括运行 Android 2.2 的旧设备)。 我的应用程序的输入模型包含一个区域,该区域通常由数万个顶点组成。典型模型有 50000-1000
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
我被要求编写一个程序来查找我大学中两个输入的总和,因此我应该首先检查输入是否有效。 例如,如果我输入 2534.11s35,程序应该检测到它不是该程序的有效输入,因为输入中存在 s。 最佳答案 to
我正在尝试降低 FPGA 的逻辑利用率,但在网上找不到任何好的 float fastpow。我所说的“好”是指充分减少所使用的逻辑。如果我使用双版本我几乎没有什么改进。如果我使用其他依赖日志的 flo
我有一个 128 字节的内存位置。我尝试用从 1...127 开始的数据填充内存。 我需要编写一个代码来获取两个参数,如偏移量、数据类型。根据参数,我需要将内存中的数据转换为提到的特定数据类型。 举个
我希望能够做到以下几点: float func() { if( error ) return InvalidFloatingPointValue; else return 0.0f;
假设我有两个 float ,我想比较它们。如果一个大于另一个,程序应该采用一个 fork。如果情况正好相反,它应该走另一条路。并且它应该做同样的事情,如果被比较的值在一个仍然应该使它比较真实的方向上被
我是一名优秀的程序员,十分优秀!