- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
如何清除 __m128i
的 16 - i
高位字节?
我试过了;它有效,但我想知道是否有更好(更短、更快)的方法:
int i = ... // 0 < i < 16
__m128i x = ...
__m128i mask = _mm_set_epi8(
0,
(i > 14) ? -1 : 0,
(i > 13) ? -1 : 0,
(i > 12) ? -1 : 0,
(i > 11) ? -1 : 0,
(i > 10) ? -1 : 0,
(i > 9) ? -1 : 0,
(i > 8) ? -1 : 0,
(i > 7) ? -1 : 0,
(i > 6) ? -1 : 0,
(i > 5) ? -1 : 0,
(i > 4) ? -1 : 0,
(i > 3) ? -1 : 0,
(i > 2) ? -1 : 0,
(i > 1) ? -1 : 0,
-1);
x = _mm_and_si128(x, mask);
最佳答案
我尝试了几种不同的实现方法,并在早期的 Core i7 @ 2.67 GHz 和最近的 Haswell @ 3.6 GHz 上使用几个不同的编译器对它们进行了基准测试:
//
// mask_shift_0
//
// use PSHUFB (note: SSSE3 required)
//
inline __m128i mask_shift_0(uint32_t n)
{
const __m128i vmask = _mm_set1_epi8(255);
const __m128i vperm = _mm_set_epi8(112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127);
__m128i vp = _mm_add_epi8(vperm, _mm_set1_epi8(n));
return _mm_shuffle_epi8(vmask, vp);
}
//
// mask_shift_1
//
// use 16 element LUT
//
inline __m128i mask_shift_1(uint32_t n)
{
static const int8_t mask_lut[16][16] __attribute__ ((aligned(16))) = {
{ -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1 },
{ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1 }
};
return _mm_load_si128((__m128i *)&mask_lut[n]);
}
//
// mask_shift_2
//
// use misaligned load from 2 vector LUT
//
inline __m128i mask_shift_2(uint32_t n)
{
static const int8_t mask_lut[32] = {
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1
};
return _mm_loadu_si128((__m128i *)(mask_lut + 16 - n));
}
//
// mask_shift_3
//
// use compare and single vector LUT
//
inline __m128i mask_shift_3(uint32_t n)
{
const __m128i vm = _mm_setr_epi8(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16);
__m128i vn = _mm_set1_epi8(n);
return _mm_cmpgt_epi8(vm, vn);
}
//
// mask_shift_4
//
// use jump table and immediate shifts
//
inline __m128i mask_shift_4(uint32_t n)
{
const __m128i vmask = _mm_set1_epi8(-1);
switch (n)
{
case 0:
return vmask;
case 1:
return _mm_slli_si128(vmask, 1);
case 2:
return _mm_slli_si128(vmask, 2);
case 3:
return _mm_slli_si128(vmask, 3);
case 4:
return _mm_slli_si128(vmask, 4);
case 5:
return _mm_slli_si128(vmask, 5);
case 6:
return _mm_slli_si128(vmask, 6);
case 7:
return _mm_slli_si128(vmask, 7);
case 8:
return _mm_slli_si128(vmask, 8);
case 9:
return _mm_slli_si128(vmask, 9);
case 10:
return _mm_slli_si128(vmask, 10);
case 11:
return _mm_slli_si128(vmask, 11);
case 12:
return _mm_slli_si128(vmask, 12);
case 13:
return _mm_slli_si128(vmask, 13);
case 14:
return _mm_slli_si128(vmask, 14);
case 15:
return _mm_slli_si128(vmask, 15);
}
}
//
// lsb_mask_0
//
// Contributed by by @Leeor/@dtb
//
// uses _mm_set_epi64x
//
inline __m128i lsb_mask_0(int n)
{
if (n >= 8)
return _mm_set_epi64x(~(-1LL << (n - 8) * 8), -1);
else
return _mm_set_epi64x(0, ~(-1LL << (n - 0) * 8));
}
//
// lsb_mask_1
//
// Contributed by by @Leeor/@dtb
//
// same as lsb_mask_0 but uses conditional operator instead of if/else
//
inline __m128i lsb_mask_1(int n)
{
return _mm_set_epi64x(n >= 8 ? ~(-1LL << (n - 8) * 8) : 0, n >= 8 ? -1 : ~(-1LL << (n - 0) * 8));
}
结果很有趣:
Core i7 @ 2.67 GHz,Apple LLVM gcc 4.2.1 (gcc -O3)
mask_shift_0: 2.23377 ns
mask_shift_1: 2.14724 ns
mask_shift_2: 2.14270 ns
mask_shift_3: 2.15063 ns
mask_shift_4: 2.98304 ns
lsb_mask_0: 2.15782 ns
lsb_mask_1: 2.96628 ns
Core i7 @ 2.67 GHz,Apple clang 4.2 (clang -Os)
mask_shift_0: 1.35014 ns
mask_shift_1: 1.12789 ns
mask_shift_2: 1.04329 ns
mask_shift_3: 1.09258 ns
mask_shift_4: 2.01478 ns
lsb_mask_0: 1.70573 ns
lsb_mask_1: 1.84337 ns
Haswell E3-1285 @ 3.6 GHz,gcc 4.7.2 (gcc -O2)
mask_shift_0: 0.851416 ns
mask_shift_1: 0.575245 ns
mask_shift_2: 0.577746 ns
mask_shift_3: 0.850086 ns
mask_shift_4: 1.398270 ns
lsb_mask_0: 1.359660 ns
lsb_mask_1: 1.709720 ns
所以 mask_shift_4
(switch/case)似乎是所有情况下最慢的方法,而其他方法非常相似。基于 LUT 的方法似乎始终是总体上最快的。
注意:我使用 clang -O3
和 gcc -O3
(仅限 gcc 4.7.2)得到了一些可疑的快速数字 - 我需要查看生成的程序集这些情况可以查看编译器在做什么,并确保它没有做任何“聪明”的事情,例如优化时序测试工具的某些部分。
如果其他人对此有任何进一步的想法,或者他们想尝试另一个 mask_shift 实现,我很乐意将其添加到测试套件并更新结果。
关于c++ - 清除 __m128i 的高位字节,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18674145/
我有一个网站,我正在通过学校参加比赛,但我在清除 float 元素方面遇到了问题。 该网站托管在 http://www.serbinprinting.com/corey/development/
我有一个清除按钮,需要使用 JQuery 函数清除该按钮单击时的 TextBox 值(输入的)。 最佳答案 您只需将单击事件附加到按钮即可将输入元素的值设置为空。 $("#clearButton").
我们已经创建了一个保存到 CoreData 然后同步到 CloudKit 的 iOS 应用程序。在测试中,我们还没有找到一种方法来清除应用程序 iCloud 容器中的数据(用于用户私有(private
这是一个普遍的问题,也是我突然想到并且似乎有道理的问题。我看到很多人使用清除div 并且知道这有时不受欢迎,因为它是额外的标记。我最近开始使用 因为它接缝代表了它的实际用途。 当然都引用了:.clea
我有两个单选按钮。如果我检查第一个单选按钮下面的数据将填充在组合框中。之后我将检查另一个单选按钮,我想清除组合框值。 EmployeeTypes _ET = new EmployeeTypes(
我一直在玩 Canvas ,我正在尝试制作一个可以移动和跳跃的正方形,移动部分已经完成,但是跳跃部分有一个问题:每次跳跃时它都会跳得更快 here's a jsfiddle 这是代码: ///////
我该如何在 Dart 上做到这一点? 抓取tbody元素后,我想在其上调用empty(),但这似乎不存在: var el = query('#search_results_tbody'); el.em
我需要创建一个二维模拟,但是在设置新的“框架”时,旧的“框架”不会被清除。 我希望一些圆圈在竞技场中移动,并且每个循环都应删除旧圆圈并生成新圆圈。一切正常,但旧的没有被清除并且仍然可见,这就是我需要改
无论我使用set statusline将状态行更改为什么,我的状态行都不会改变。看起来像 ".vimrc" 39L, 578C
在 WPF 应用程序中,我有一个 ListView 绑定(bind)到我的 ViewModel 上的一个 ObservableCollection。 在应用程序运行期间,我需要删除并重新加载集合中的所
我有一个大型程序,一个带有图形的文本扭曲游戏。在我的代码中的某处,我使用 kbhit() 我执行此代码来清除我的输入缓冲区: while ((c = getchar()) != '\n' && c !
我正在将所有网站的页面加载到主索引页面中,并通过将 href 分成段并在主域名后使用 .hash 函数添加段来更新 URL 显示,如下所示: $('a').click(function(event)
我有一个带有 的表单和 2 控件来保存和重置表单。我正在触发 使用 javascript __doPostBack()函数并在其中传递一个值 __EVENTARGUMENT如果面板应该重置。 我的代
我目前有一堆 UIViewController,每个都是在前一个之上呈现的模式 ViewController。我的问题是我不需要一堆 UIViewController,我只需要最后一个。因此,当出现新
我在一个类中有一些属性方法,我想在某个时候清除这个属性的缓存。 示例: class Test(): def __init__(self): pass @property
在此Test Link我试图将标题和主站点导航安装到博客脚本的顶部。 我清除:两者;在主要网站脚本上工作,但现在把所有东西都扔到了一边。尝试了无数次 fixex 都没有成功!提前感谢 Ant 指点解决
我似乎无法正确清除布局。看this 我无法阻止左栏中的元素向下推右栏中的元素。谁能帮忙? Screenshot with some pointy arrows (死链接) 最佳答案 问题标记/样式似
我希望能够在某个类 (sprite-empos) 之后清除 '' 中的内容,想知道是否有不添加任何新类或不使用 js 的方法(我在下面尝试过不工作)? 为了明确它是“985”,我想在某个视口(view
我想清除ptr_array boost::ptr_array a; ... a.clear(); // missing 如何清理 ptr 容器? 最佳答案 它应该表现得像一个数组,您不能在 C++
这是我使用多 map 制作的一个简单的事件系统;当我使用 CEvents::Add(..) 方法时,它应该插入并进入多重映射。问题是,当我触发这些事件时, multimap 似乎是空的。我确定我没有调
我是一名优秀的程序员,十分优秀!