c++ - AVX/SSE 回合向下 float 并返回整数 vector ？-6ren

c++ - AVX/SSE 回合向下 float 并返回整数 vector ？

转载作者：塔克拉玛干更新时间：2023-11-03 01:35:08

25

4

有没有办法使用 AVX/SSE 获取浮点 vector 、向下舍入并生成整数 vector ？所有的 floor 内部方法似乎都产生了一个浮点的最终 vector ，这很奇怪，因为四舍五入产生了一个整数!

最佳答案

SSE 可以从 FP 转换为整数，您可以选择截断(向零)或当前舍入模式(通常是 IEEE 默认模式，最接近平局舍入为偶数。像 nearbyint()，与 round() 不同，其中 tiebreak 是远离 0。如果您需要 x86 上的舍入模式，you have to emulate it, perhaps with truncate as a building block。)

相关说明为CVTPS2DQ和 CVTTPS2DQ将压缩单精度 float 转换为有符号双字整数。助记符中带有额外 T 的版本执行截断，而不是当前的舍入模式。

; xmm0 is assumed to be packed float input vector
cvttps2dq xmm0, xmm0
; xmm0 now contains the (rounded) packed integer vector

或者使用内在函数，__m128i _mm_cvt[t]ps_epi32(__m128 a)

对于 x86 在硬件中提供的其他两种舍入模式，floor(朝向 -Inf)和 ceil(朝向 +Inf)，一种简单的方法是使用此 SSE4.1/AVX ROUNDPS转换为整数之前的指令。

代码看起来像这样:

roundps  xmm0, xmm0, 1    ; nearest=0, floor=1,  ceil=2, trunc=3
cvtps2dq xmm0, xmm0       ; or cvttps2dq, doesn't matter
; xmm0 now contains the floored packed integer vector

对于 AVX ymm vector ，在指令前加上“V”并将 xmm 更改为 ymm。

ROUNDPS 是这样工作的

Round packed single precision floating-point values in xmm2/m128 and place the result in xmm1. The rounding mode is determined by imm8.

舍入模式(立即数/第三个操作数)可以具有以下值(取自当前英特尔文档的表 4-15 - 舍入模式和舍入控制 (RC) 字段的编码 ):

Rounding Mode               RC Field Setting   Description
----------------------------------------------------------
Round to nearest (even)     00B                Rounded result is the closest to the infinitely precise result. If two values are equally close, the result is nearest (even) the even value (i.e., the integer value with the least-significant bit of zero).
Round down (toward −∞)      01B                Rounded result is closest to but no greater than the infinitely precise result.
Round up (toward +∞)        10B                Rounded result is closest to but no less than the infinitely precise result.
Round toward 0 (truncate)   11B                Rounded result is closest to but no greater in absolute value than the infinitely precise result.

舍入操作的返回 vector 是 float 而不是 int 的可能原因可能是这样，进一步的操作总是浮点操作(在舍入值)和到 int 的转换将是微不足道的，如图所示。

相应的内在函数可在引用文档中找到。将上述代码转换为内在函数(取决于 Rounding Control (RC) Field)的示例是:

__m128 dst = _mm_cvtps_epi32( _mm_floor_ps(__m128 src) );

关于c++ - AVX/SSE 回合向下 float 并返回整数 vector ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37091422/

25

4

0

文章推荐： c++ - GCC 链接器提示对现有全局变量的 undefined reference

文章推荐： php - 从 Linux Windows Azure SDK 为 PHP 项目创建 cspkg 和 cscfg

文章推荐： c++ - 从 'size_t' 到 'rapidjson::SizeType' 的转换

css - float float float float ？
我知道问题的标题听起来很奇怪，但我不知道该怎么调用它。首先，我有一个网格布局，我希望我的 .search-wrapper 宽度为 50% 并向右浮动。在我的演示中 jsfiddle整个 .searc
c++ - "float = float - float"中是否存在隐式类型提升？
我们正在使用 QA-C 来实现 MISRA C++ 一致性，但是该工具会为这样的代码喷出错误: float a = foo(); float b = bar(); float c = a - b; 据
c - float* 类型的变量应该指向单个 float 还是一系列 float ？
考虑 float a[] = { 0.1, 0.2, 0.3}; 我很困惑a稍后传递给函数 foo(float* A) .不应该是 float* 类型的变量指向单个浮点数，对吗？就像这里提到的tu
c# - 存在从 'float' 和 'float' 以及从 'float' 到 'float' 的隐式转换
这可能是我一段时间以来收到的最好的错误消息，我很好奇出了什么问题。原代码 float currElbowAngle = LeftArm ? Elbow.transform.localRotation
types - 类型 'float -> float' 与类型 'float' 不匹配
刚开始学习 F#，我正在尝试为 e 生成和评估泰勒级数的前 10 项。我最初编写了这段代码来计算它: let fact n = function | 0 -> 1 | _ -> [1
floating-point - 如何从二进制文件中读取单精度 float 并转换为 Erlang float ？
我已经使用 Erlang 读取二进制文件中的 4 个字节(小端)。在尝试将二进制转换为浮点时，我一直遇到以下错误: ** exception error: bad argument in
c - 为什么将一个小 float 添加到一个大 float 中只会删除小 float ？
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
css - Float right 不会在框内 float ，而是在框外 float
我每次都想在浏览器顶部修复这个框。但是右边有一些问题我不知道如何解决所以我寻求帮助。 #StickyBar #RightSideOfStickyBar { float : right ; }
c# - 为什么 (int)==(float) 总是编译为 (float)==(float)
我正在研究 C# 编译器并试图理解数学运算规则。我发现在两种不同的原始类型之间使用 == 运算符时会出现难以理解的行为。 int a = 1; float b = 1.0f; Cons
c - 为什么将小 float 添加到大 float 只会降低小 float ？
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
floating-point - 从硬件架构的角度来看，为什么非规范化 float 比其他 float 慢得多？
Denormals众所周知，与正常情况相比，表现严重不佳，大约是 100 倍。这经常导致 unexpected软件 problems . 我很好奇，从 CPU 架构的角度来看，为什么非规范化必须是那
iphone - 在 float 和 float 之间获取随机 float 的最佳方法是什么？
我有一个由两个 float 组成的区间，并且需要生成 20 个随机数，看起来介于两个 float 定义的区间之间。比方说: float a = 12.49953f float b = 39.1123
c++ - 错误 : no matching function for call to ‘QGenericMatrix<4, 3, float>::QGenericMatrix(const float&, const float&, ..., float)’
我正在构建如下矩阵: QMatrix4x3 floatPos4x3 = QMatrix4x3( floatPos0.at(0), floatPos1.at(0), floatPos2.at(0),
floating-point - 标准化 float f之后(之前)的下一个标准化 float 是什么？
给定归一化的浮点数f，在f之前/之后的下一个归一化浮点数是多少。通过微动，提取尾数和指数，我得到了: next_normalized(double&){ if mantissa is n
CSS float : Why is float applied to the element just prior to the element to be floated?
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素？为了帮助可视化我的问题，我创建了以下 jsFiddle http://
CSS float : Why is float applied to the element just prior to the element to be floated?
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素？为了帮助可视化我的问题，我创建了以下 jsFiddle http://
css - 如何在 float 跨度内将 float 跨度包裹在另一个 float 跨度下方 [包括图表]？
我有一个新闻源/聊天框。每个条目包含两个跨度:#user 和#message。我希望#user 向左浮动，而#message 向左浮动。如果#message 导致行超过容器宽度，#message 应该
css-float - CSS float，清除一个 "row"的 float 元素
我想创建一个“记分卡”网格来输出一些数据。如果每个 div.item 中的数据都具有相同的高度，那么在每个 div.item 上留下一个简单的 float 会提供一个漂亮的均匀布局，它可以根据浏览器大
html - CSS float 属性 - float div 与 float 段落时的行为差异
我正在学习使用 CSS float 属性。我想了解此属性的特定效果。考虑以下简单的 HTML 元素: div1 div2 This is a paragraph 以及以下 CSS 规则: div {
用于 float 或整数的 Python 正则表达式，但不将 float 拆分为两个 float
我正在尝试从可以是 int 或 float 的文件中提取数据。我发现这个正则表达式将从文件 (\d+(\.\d+)?) 中提取这两种类型，但我遇到的问题是它将 float 拆分为两个。 >>> imp

首页

博学

6Ren·AI

商城

c++ - AVX/SSE 回合向下 float 并返回整数 vector ？