- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一段代码是在 x86 处理器上运行的 C++ 应用程序的瓶颈,我们从两个数组中获取 double 值,转换为 float 并存储在结构数组中。这是一个瓶颈的原因是它被调用时有非常大的循环,或者被调用了数千次。
是否有使用 SIMD Intrinsics 执行此复制和强制转换操作的更快方法?我看过this answer on faster memcpy但没有解决类型转换问题。
简单的 C++ 循环情况如下所示
int _iNum;
const unsigned int _uiDefaultOffset; // a constant
double * pInputValues1; // array of double values, count = _iNum;
double * pInputValues2;
MyStruct * pOutput; // array of outputs defined as
// struct MyStruct
// {
// float O1;
// float O2;
// unsigned int Offset;
// };
for (int i = 0; i < _iNum; ++i)
{
_pPoints[i].O1 = static_cast<float>(pInputValues1[i]);
_pPoints[i].O2 = static_cast<float>(pInputValues2[i]);
_pPoints[i].Offset = _uiDefaultOffset;
}
注意:结构格式为 [Float,Float,Int](24 字节)但我们可以(如果它有助于提高性能)添加一个额外的4 字节填充使其成为 32 字节。
最佳答案
这是对 SSE4.1 的尝试,没有 AVX(这样做比较棘手,到目前为止我想出更多的混洗),并使用 12 字节/点格式:(未测试)
void test3(MyStruct * _pPoints, double * pInputValues1, double * pInputValues2) {
// struct MyStruct
// {
// float O1;
// float O2;
// unsigned int Offset;
// };
__m128 offset = _mm_castsi128_ps(_mm_cvtsi32_si128(_uiDefaultOffset));
int i;
for (i = 0; i < _iNum - 2; i += 2)
{
// read inputs and convert to float
__m128d inA = _mm_loadu_pd(&pInputValues1[i]);
__m128d inB = _mm_loadu_pd(&pInputValues2[i]);
__m128 inAf = _mm_cvtpd_ps(inA); // 0 0 A1 A0
__m128 inBf = _mm_cvtpd_ps(inB); // 0 0 B1 B0
// shuffle B0 from place 0 to place 1, merge with offset
__m128 tempA = _mm_shuffle_ps(inBf, offset, _MM_SHUFFLE(1, 0, 0, 0)); // 0 OF B0 B0
// shuffle A1 from place 1 to place 0, merge with offset
__m128 tempB = _mm_shuffle_ps(inAf, offset, _MM_SHUFFLE(1, 0, 1, 1)); // 0 OF A1 A1
// replace B0 at place 0 with A0
__m128 outA = _mm_blend_ps(tempA, inAf, 1); // 0 OF B0 A0
// replace A1 at place 1 with B1
__m128 outB = _mm_blend_ps(tempB, inBf, 2); // 0 OF B1 A1
// store results
_mm_storeu_ps(&_pPoints[i].O1, outA);
_mm_storeu_ps(&_pPoints[i + 1].O1, outB);
}
// remaining iteration if _iNum is not even
for (; i < _iNum; i++)
{
_pPoints[i].O1 = static_cast<float>(pInputValues1[i]);
_pPoints[i].O2 = static_cast<float>(pInputValues2[i]);
_pPoints[i].Offset = _uiDefaultOffset;
}
}
这使用了shufps
的能力来从两个不同的源中进行选择来合并动态数据和常量偏移量,同样的 shuffles 也会移动每个需要移动的组中的 float 。然后使用混合将单个浮标替换为已经在正确位置的另一个浮标。这需要 2 次随机播放和 2 次混合,还有一种方法是 3 次随机播放和零混合,但是在当前的英特尔处理器上,所有随机播放都转到 p5,而混合可以转到不同的端口。转换也已经使用了 p5,所以它被淹没了,使用混合应该更好。每次迭代仍然是 4 p5 微操作,因此处理每个项目至少需要 2 个周期,这不是很好。
主循环跳过最后的项目,这样它就不会越界写入,它会稍微重叠 16 字节存储,在结构末尾写入 4 个字节。该部分会被下一个存储的真实结果覆盖,但在数组末尾这样做可能很危险。
关于c++ - 快速将 2 个 double 数组交织成具有 2 个 float 和 1 个 int(循环不变)成员的结构数组,并使用 SIMD double->float 转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57013636/
我正在尝试读取和处理一个大的 json 文件(~16G),但即使我通过指定 chunksize=500 读取小块,它仍然有内存错误。我的代码: i=0 header = True for chunk
请看下图... 我想通过 CSS 实现。 我现在将此分隔符用作在我的容器内响应的图像 ( jpg )。问题是我似乎无法准确匹配颜色或使白色晶莹剔透。 我认为 CSS 是解决这个问题的最佳方式。 尺寸为
所以我正在尝试使用 AngularJS 和 Node.js。我正在尝试设置客户端路由,但遇到一些问题。 编辑 所以我改变了一些代码如下 https://github.com/scotch-io/sta
我想创建如下图所示的边框: 这段代码是我写的 Some Text p{ -webkit-transform: perspective(158px) rotateX(338deg); -webk
好的,所以我有一个包含 2 个选项的选择表 $builder->add('type', 'choice', array( 'label' => 'User type', 'choice
我的代码: private void pictureBox1_MouseDown(object sender, MouseEventArgs e) { ngr.
我正在尝试编写 Tic-Tac-Toe 游戏代码,但不知道如何在轮到我时push_back '+' 字符。 因此,每当玩家输入例如“Oben 链接”时,这基本上意味着左上角,我希望游戏检查输入是否正确
我正在研究 HtmlHelper.AnonymousObjectToHtmlAttributes。 它适用于匿名对象: var test = new {@class = "aaa", placehol
在 stackoverflow 上所有这些 mod 重写主题之后,我仍然没有找到我的问题的答案。我有一个顶级站点,基本上我想做的就是将 /index.php?method=in&cat=Half+Li
仅使用 CSS 可以实现此功能区吗? 最佳答案 .box { width: 300px; height: 300px; background-color: #a0a0a0;
我有一个 jbuilder 模板,它用 json 表示我的一个模型,如下所示: json.(model, :id, :field1, :field2, :url) 如果我只是从控制台访问该字段,则 u
昨天我问了一个问题 - Draw arrow according to path 在那个问题中,我解释说我想在 onTouchEvent 的方向上绘制一个箭头。我在评论中得到了答案,说我应该旋转 Ca
我希望段落中的代码与代码块中显示的代码一致。 例如: The formula method for a linear model is lm(y~x, data = dat). For our da
我使用 ViewPager 获得了一个选项卡菜单。每个选项卡都包含来自 android.support.v4 包的 fragment (与旧 SDK 的兼容性)。其中一个 fragment 是 Web
我正在从事一项需要多种程序能力的科学项目。在四处寻找可用的工具后,我决定使用 Boost 库,它为我提供了 C++ 标准库不提供的所需功能,例如日期/时间管理等。 我的项目是一组命令行,用于处理来自旧
外媒 Windows Latest 报道,随着 Windows 10 的不断发展,某些功能会随着新功能的更新而被抛弃或成为可选项。早在 2018 年,微软就确认截图工具将消失,现代的 “截图和草图”
我有标记的 Angular ,我只希望标记旋转到那个 Angular 。 marker = new google.maps.Marker({ position: myL
我一定是遗漏了什么,但我不知道是什么。我有使用 polymer 实现的简单自定义元素: TECK ..
我有一个关于如何设置我们产品的分步教程。我必须在每个步骤中显示大量示例代码。以下是我必须在页面中显示的代码类型列表。我用什么来格式化所有内容? Java 代码示例 XML 样本 iOS SDK 文件(
我需要在我的 iPad 应用程序中绘制一些图表,所以我遵循了本教程: http://recycled-parts.blogspot.com/2011/07/setting-up-coreplot-in
我是一名优秀的程序员,十分优秀!