c++ - 清除 __m128i 的高位字节-6ren

c++ - 清除 __m128i 的高位字节

转载作者：塔克拉玛干更新时间：2023-11-03 01:37:07

如何清除 __m128i 的 16 - i 高位字节？

我试过了；它有效，但我想知道是否有更好(更短、更快)的方法:

int i = ...  //  0 < i < 16

__m128i x = ...

__m128i mask = _mm_set_epi8(
    0,
    (i > 14) ? -1 : 0,
    (i > 13) ? -1 : 0,
    (i > 12) ? -1 : 0,
    (i > 11) ? -1 : 0,
    (i > 10) ? -1 : 0,
    (i >  9) ? -1 : 0,
    (i >  8) ? -1 : 0,
    (i >  7) ? -1 : 0,
    (i >  6) ? -1 : 0,
    (i >  5) ? -1 : 0,
    (i >  4) ? -1 : 0,
    (i >  3) ? -1 : 0,
    (i >  2) ? -1 : 0,
    (i >  1) ? -1 : 0,
    -1);

x = _mm_and_si128(x, mask);

最佳答案

我尝试了几种不同的实现方法，并在早期的 Core i7 @ 2.67 GHz 和最近的 Haswell @ 3.6 GHz 上使用几个不同的编译器对它们进行了基准测试:

//
// mask_shift_0
//
// use PSHUFB (note: SSSE3 required)
//

inline __m128i mask_shift_0(uint32_t n)
{
  const __m128i vmask = _mm_set1_epi8(255);
  const __m128i vperm = _mm_set_epi8(112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127);
  __m128i vp = _mm_add_epi8(vperm, _mm_set1_epi8(n));
  return _mm_shuffle_epi8(vmask, vp);
}

//
// mask_shift_1
//
// use 16 element LUT
//

inline __m128i mask_shift_1(uint32_t n)
{
  static const int8_t mask_lut[16][16] __attribute__ ((aligned(16))) = {
    { -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1, -1 },
    { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -1 }
  };
  return _mm_load_si128((__m128i *)&mask_lut[n]);
}

//
// mask_shift_2
//
// use misaligned load from 2 vector LUT
//

inline __m128i mask_shift_2(uint32_t n)
{
  static const int8_t mask_lut[32] = {
    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1
  };
  return _mm_loadu_si128((__m128i *)(mask_lut + 16 - n));
}

//
// mask_shift_3
//
// use compare and single vector LUT
//

inline __m128i mask_shift_3(uint32_t n)
{
  const __m128i vm = _mm_setr_epi8(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16);
  __m128i vn = _mm_set1_epi8(n);
  return _mm_cmpgt_epi8(vm, vn);
}

//
// mask_shift_4
//
// use jump table and immediate shifts
//

inline __m128i mask_shift_4(uint32_t n)
{
  const __m128i vmask = _mm_set1_epi8(-1);
  switch (n)
  {
    case 0:
      return vmask;
    case 1:
      return _mm_slli_si128(vmask, 1);
    case 2:
      return _mm_slli_si128(vmask, 2);
    case 3:
      return _mm_slli_si128(vmask, 3);
    case 4:
      return _mm_slli_si128(vmask, 4);
    case 5:
      return _mm_slli_si128(vmask, 5);
    case 6:
      return _mm_slli_si128(vmask, 6);
    case 7:
      return _mm_slli_si128(vmask, 7);
    case 8:
      return _mm_slli_si128(vmask, 8);
    case 9:
      return _mm_slli_si128(vmask, 9);
    case 10:
      return _mm_slli_si128(vmask, 10);
    case 11:
      return _mm_slli_si128(vmask, 11);
    case 12:
      return _mm_slli_si128(vmask, 12);
    case 13:
      return _mm_slli_si128(vmask, 13);
    case 14:
      return _mm_slli_si128(vmask, 14);
    case 15:
      return _mm_slli_si128(vmask, 15);
  }
}

//
// lsb_mask_0
//
// Contributed by by @Leeor/@dtb
//
// uses _mm_set_epi64x
//

inline __m128i lsb_mask_0(int n)
{
  if (n >= 8)
    return _mm_set_epi64x(~(-1LL << (n - 8) * 8), -1);
  else
    return _mm_set_epi64x(0, ~(-1LL << (n - 0) * 8));
}

//
// lsb_mask_1
//
// Contributed by by @Leeor/@dtb
//
// same as lsb_mask_0 but uses conditional operator instead of if/else
//

inline __m128i lsb_mask_1(int n)
{
  return _mm_set_epi64x(n >= 8 ? ~(-1LL << (n - 8) * 8) : 0, n >= 8 ? -1 : ~(-1LL << (n - 0) * 8));
}

结果很有趣:

Core i7 @ 2.67 GHz，Apple LLVM gcc 4.2.1 (gcc -O3)

mask_shift_0: 2.23377 ns
mask_shift_1: 2.14724 ns
mask_shift_2: 2.14270 ns
mask_shift_3: 2.15063 ns
mask_shift_4: 2.98304 ns
lsb_mask_0:   2.15782 ns
lsb_mask_1:   2.96628 ns

Core i7 @ 2.67 GHz，Apple clang 4.2 (clang -Os)

mask_shift_0: 1.35014 ns
mask_shift_1: 1.12789 ns
mask_shift_2: 1.04329 ns
mask_shift_3: 1.09258 ns
mask_shift_4: 2.01478 ns
lsb_mask_0:   1.70573 ns
lsb_mask_1:   1.84337 ns

Haswell E3-1285 @ 3.6 GHz，gcc 4.7.2 (gcc -O2)

mask_shift_0: 0.851416 ns
mask_shift_1: 0.575245 ns
mask_shift_2: 0.577746 ns
mask_shift_3: 0.850086 ns
mask_shift_4: 1.398270 ns
lsb_mask_0:   1.359660 ns
lsb_mask_1:   1.709720 ns

所以 mask_shift_4(switch/case)似乎是所有情况下最慢的方法，而其他方法非常相似。基于 LUT 的方法似乎始终是总体上最快的。

注意:我使用 clang -O3 和 gcc -O3(仅限 gcc 4.7.2)得到了一些可疑的快速数字 - 我需要查看生成的程序集这些情况可以查看编译器在做什么，并确保它没有做任何“聪明”的事情，例如优化时序测试工具的某些部分。

如果其他人对此有任何进一步的想法，或者他们想尝试另一个 mask_shift 实现，我很乐意将其添加到测试套件并更新结果。

关于c++ - 清除 __m128i 的高位字节，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18674145/

文章推荐： c++ - 销毁 gtkmm 消息对话框？

文章推荐： linux - 提交后更新返回 "Skipped ' .'"非服务器管理员用户

文章推荐： linux - 使用 curl -D 检查服务器响应

html - 清除 float div(清除 :both; not working )
我有一个网站，我正在通过学校参加比赛，但我在清除 float 元素方面遇到了问题。该网站托管在 http://www.serbinprinting.com/corey/development/
jquery - 如何使用 JQuery 清除“清除”按钮上的文本
我有一个清除按钮，需要使用 JQuery 函数清除该按钮单击时的 TextBox 值(输入的)。最佳答案您只需将单击事件附加到按钮即可将输入元素的值设置为空。 $("#clearButton").
swift - 清除/清除 CloudKit 容器的所有用户 iCloud 记录
我们已经创建了一个保存到 CoreData 然后同步到 CloudKit 的 iOS 应用程序。在测试中，我们还没有找到一种方法来清除应用程序 iCloud 容器中的数据(用于用户私有(private
html - hr 清除 vs div 清除。哪个更好？
这是一个普遍的问题，也是我突然想到并且似乎有道理的问题。我看到很多人使用清除div 并且知道这有时不受欢迎，因为它是额外的标记。我最近开始使用因为它接缝代表了它的实际用途。当然都引用了:.clea
WPF ComboBox 清除
我有两个单选按钮。如果我检查第一个单选按钮下面的数据将填充在组合框中。之后我将检查另一个单选按钮，我想清除组合框值。 EmployeeTypes _ET = new EmployeeTypes(
javascript - 间隔没有被clearInterval()清除
我一直在玩 Canvas ，我正在尝试制作一个可以移动和跳跃的正方形，移动部分已经完成，但是跳跃部分有一个问题:每次跳跃时它都会跳得更快 here's a jsfiddle 这是代码: ///////
dart - 清除/清空tbody元素的所有内容？
我该如何在 Dart 上做到这一点？抓取tbody元素后，我想在其上调用empty()，但这似乎不存在: var el = query('#search_results_tbody'); el.em
Java JPanel 清除
我需要创建一个二维模拟，但是在设置新的“框架”时，旧的“框架”不会被清除。我希望一些圆圈在竞技场中移动，并且每个循环都应删除旧圆圈并生成新圆圈。一切正常，但旧的没有被清除并且仍然可见，这就是我需要改
Vim 状态行未更改/清除
无论我使用set statusline将状态行更改为什么，我的状态行都不会改变。看起来像 ".vimrc" 39L, 578C
wpf - 清除 ObservableCollection
在 WPF 应用程序中，我有一个 ListView 绑定(bind)到我的 ViewModel 上的一个 ObservableCollection。在应用程序运行期间，我需要删除并重新加载集合中的所
清除 C 中的输入缓冲区
我有一个大型程序，一个带有图形的文本扭曲游戏。在我的代码中的某处，我使用 kbhit() 我执行此代码来清除我的输入缓冲区: while ((c = getchar()) != '\n' && c !
javascript - 清除#而不重新加载页面
我正在将所有网站的页面加载到主索引页面中，并通过将 href 分成段并在主域名后使用 .hash 函数添加段来更新 URL 显示，如下所示: $('a').click(function(event)
c# - 清除 __eventArgument
我有一个带有的表单和 2 控件来保存和重置表单。我正在触发使用 javascript __doPostBack()函数并在其中传递一个值 __EVENTARGUMENT如果面板应该重置。我的代
ios - 清除 UIViewController
我目前有一堆 UIViewController，每个都是在前一个之上呈现的模式 ViewController。我的问题是我不需要一堆 UIViewController，我只需要最后一个。因此，当出现新
python - 清除@property方法python的缓存
我在一个类中有一些属性方法，我想在某个时候清除这个属性的缓存。示例: class Test(): def __init__(self): pass @property
css - 清除 : both: 时遇到问题
在此Test Link我试图将标题和主站点导航安装到博客脚本的顶部。我清除:两者；在主要网站脚本上工作，但现在把所有东西都扔到了一边。尝试了无数次 fixex 都没有成功!提前感谢 Ant 指点解决
CSS 清除 :both not working
我似乎无法正确清除布局。看this 我无法阻止左栏中的元素向下推右栏中的元素。谁能帮忙？ Screenshot with some pointy arrows (死链接) 最佳答案问题标记/样式似
css - 清除 元素后的内容
我希望能够在某个类 (sprite-empos) 之后清除 '' 中的内容，想知道是否有不添加任何新类或不使用 js 的方法(我在下面尝试过不工作)？为了明确它是“985”，我想在某个视口(view

c++ - 清除 ptr_array
我想清除ptr_array boost::ptr_array a; ... a.clear(); // missing 如何清理 ptr 容器？最佳答案它应该表现得像一个数组，您不能在 C++

c++ - multimap 清除
这是我使用多 map 制作的一个简单的事件系统；当我使用 CEvents::Add(..) 方法时，它应该插入并进入多重映射。问题是，当我触发这些事件时， multimap 似乎是空的。我确定我没有调

塔克拉玛干

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

iOS/Objective-C 元类和类别

objective-c - -1001 错误，当 NSURLSession 通过 httpproxy 和/etc/hosts

java - 使用网络类获取 url 地址

ios - 推送通知中不播放声音

滴滴打车优惠券免费领取

全站热门文章

Nuxt.js应用中的schema：extend事件钩子详解

基于surging的木舟平台如何通过Tcp或者UDP网络组件接入设备

使用Boost.asio与Boost.beast基于协程连接ws

精选2款C#/.NET开源且功能强大的网络通信框架

内核源码+vscode+bear+clang实现函数任意跳转，无缝跳转，无缝阅读，无缝开发

权限系统：一文搞懂功能权限、数据权限

一文彻底弄懂JUC工具包的Semaphore

鸿蒙Navigation页面生命周期

新手入门Java自动化测试的利器：SeleniumWebDriver

TinyVuev3.19.0正式发布！Tree组件终于支持虚拟滚动啦！UI也升级啦，更更符合现代审美~

首页

博学

6Ren·AI

商城

c++ - 清除 __m128i 的高位字节