- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
非常感谢,我正在尝试优化用C编写的Kasumi算法。FI函数中有S-box用于加密数据,S7-box有127个元素,S9-box有512个元素。 FI 函数代码如下:
static u16 FI(u16 in, u16 subkey)
{
static u16 s7[] = {...};
static u16 s9[] = {...};
nine = (u16)(in>>7);
seven = (u16)(in&0x7F);
/* Now run the various operations */
nine = (u16)(S9[nine] ^ seven);
seven = (u16)(S7[seven] ^ (nine & 0x7F));
seven ^= (subkey>>9);
nine ^= (subkey&0x1FF);
nine = (u16)(S9[nine] ^ seven);
seven = (u16)(S7[seven] ^ (nine & 0x7F));
in = (u16)((seven<<9) + nine);
return( in );
}
u16代表unsigned short。
通过一些转换。我将S7-box和S9-box合并到S16-box,我用avx指令让16个数据并行。 FI函数的代码如下:
static u16 FI(__m256i in, u16 subkey)
{
u16 arr[16];
_mm256_store_si256((__m256i*)arr, in);
u8 i;
for(i = 0; i < 16; i++)
{
arr[i] = (u16)(s16[arr[i]] ^ subkey);
arr[i] = (arr[i] << 7) | (arr[i] >> 9);
arr[i] = s16[arr[i]];
}
in = _mm256_load_si256((__m256i*)arr);
}
S16-box 有 65536 个元素,所以可能会发生一些缓存未命中。我还使用收集指令,如:
inline static __m256i FI( __m256i in, u16 subkey )
{
__m256i _tmp = _mm256_set1_epi32(0xffff);
__m256i even_sequence = _mm256_and_si256(in, _tmp);
__m256i odd_sequence = _mm256_srli_epi32(in, 16);
even_sequence = _mm256_i32gather_epi32((int const*)s16, even_sequence, 2);
__m256i _subkey = _mm256_set1_epi16(subkey);
even_sequence = _mm256_xor_si256(even_sequence, _subkey);
even_sequence = _mm256_and_si256(even_sequence, _tmp);
odd_sequence = _mm256_i32gather_epi32((int const*)s16, odd_sequence, 2);
odd_sequence = _mm256_xor_si256(odd_sequence, _subkey);
odd_sequence = _mm256_and_si256(odd_sequence, _tmp);
// rotate
__m256i hi = _mm256_slli_epi16(even_sequence, 7);
__m256i lo = _mm256_srli_epi16(even_sequence, 9);
even_sequence = _mm256_or_si256(hi, lo);
//same for odd
hi = _mm256_slli_epi16(odd_sequence, 7);
lo = _mm256_srli_epi16(odd_sequence, 9);
odd_sequence = _mm256_or_si256(hi, lo);
even_sequence = _mm256_i32gather_epi32((int const*)s16, even_sequence, 2);
odd_sequence = _mm256_i32gather_epi32((int const*)s16, odd_sequence, 2);
even_sequence = _mm256_and_si256(even_sequence, _tmp);
odd_sequence = _mm256_slli_epi32(odd_sequence, 16);
in = _mm256_or_si256(even_sequence, odd_sequence);
return in;
}
但是性能达不到要求,我也在考虑bit-slice。我读了一篇可以并行处理 128 个数据但需要一些硬件支持的论文。我认为位转置操作很耗时,而且有很多约束。
非常感谢!
最佳答案
这段代码可能会解释性能问题以及您在其下方的评论。
static u16 FI(__m256i in, u16 subkey) {
u16 arr[16];
_mm256_store_si256((__m256i*)arr, in);
u8 i;
for(i = 0; i < 16; i++)
{
arr[i] = (u16)(s16[arr[i]] ^ subkey);
arr[i] = (arr[i] << 7) | (arr[i] >> 9);
arr[i] = s16[arr[i]];
}
in = _mm256_load_si256((__m256i*)arr);
}
S16-box has 65536 elements, so maybe some cache miss will happen.
平均 x64 处理器只有 32KB 的 L1(AMD 的有时有 64K,但现在让我们忽略它)。
这意味着如果没有其他数据结构使用任何 L1 并且您没有运行 hypertrhreading,您的 64K 阵列将获得 32KB/64KB * 100% = 50% 的缓存命中率另一个线程。
让我们将其简化为您只有 64KB 中的 16KB,每次访问都有 75% 的失误几率。所以你的循环在每一行之间都有数据依赖性,即。下一个语句不能在上一个语句完成之前开始。幸运的是,每次迭代都是独立于其他迭代的数据。
arr[i] = (u16)(s16[arr[i]] ^ subkey);
arr[i] = (arr[i] << 7) | (arr[i] >> 9);
arr[i] = s16[arr[i]];
arr
此时几乎肯定会在L1缓存中,只产生4个周期的启动成本,每次访问s16平均成本为0.25*4+0.75*12 = 1+9 = 10 个周期。这给出了每个语句的以下近似延迟成本(忽略 arr[i] 的存储和重新加载的成本,假设 arr[i] 存储在寄存器中)
arr[i] = (u16)(s16[arr[i]] ^ subkey); // arr: 4 + S16: 10 + ^:1
arr[i] = (arr[i] << 7) | (arr[i] >> 9); // << : 1 + |: 1
arr[i] = s16[arr[i]]; // s16 : 10 + store arr : 4
每次迭代有 31 个周期延迟,幸运的是每次迭代之间没有数据依赖性。每次迭代大约需要 3 个周期来发布,因此最后一次将在 ~3*16+31=79 个周期内完成,假设完美的分支预测并忽略最后分配 in
的数据风险。
我认为您的下一个代码是这个重写为 AVX2 的循环将具有许多相同的加载依赖性和完全相同的缓存未命中,循环开销将消失但一些更长的延迟 AVX 指令可能会增加时间。平均时间仍然是大约 31 个周期的延迟 + 一些 AVX 延迟 + 16 个负载/(每个周期最多 2 个负载),比方说 40 个周期。
如果您没有合并 S7 和 S9,它们将只占用 (128+512)*2 个字节,并且当您运行更长的编码时,它们几乎肯定总是在 L1 缓存中。然后,循环延迟将减半,代价是负载数量翻倍,您的完整 AVX 达到大约 15 + 32 负载/每个周期 2,比方说 30 个周期。
好消息是每个 16 字节的迭代似乎都独立于前一个,因此它们可以在时间上重叠。但是您最终会受到加载和存储数量的限制,一次初始加载,来自 s7+s9 的 32 次加载和一次存储,最多 2 次存储或加载将最佳吞吐量限制为 16 字节/((1+32+ 1)/2) 周期。
这是在做出很多乐观的假设,只有对 2 种不同代码(s16 vs s7+s9)的实际测量才能决定什么是最好的。
关于c - 如何优化KASUMI算法的S盒?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45704142/
这个问题在这里已经有了答案: Why don't Java's +=, -=, *=, /= compound assignment operators require casting? (11 个
我搜索了很多,但没有一个链接能帮助我解决这个问题。我得到了 ORA-21500: internal error code, arguments: [%s], [%s], [%s], [%s], [%s
我正在做 RegexOne 正则表达式教程,它有一个 question关于编写正则表达式以删除不必要的空格。 教程中提供的解决方案是 We can just skip all the starting
([\s\S]+|\s?) 中 |\s? 的目的或作用是什么?如果没有它,表达式会不会与 ([\s\S]+) 相同? 最佳答案 这不是完全相同的。 ([\s\S]+|\s?) 会匹配空字符串,而 ([
这个正则表达式有一组还是两组? 我正在尝试使用第二组访问 bookTitle 但出现错误: Pattern pattern = Pattern.compile("^\\s*(.*?)\\s+-\\s+
在 C 中给定一个字符串指针 s,下面的迭代会做什么?即它以什么方式遍历字符串? for (++s ; *s; ++s); 最佳答案 for (++s ; *s;++s) 表示 将指针 s 递增到字符
我正在用一个 node.js 应用程序解析一个大列表并有这段代码 sizeCode = dbfr.CN_DESC.split('\s+-\s*|\s*-\s+') 这似乎不起作用,因为它返回了 [ '
我正在编写一个简单的字符串连接程序。 该程序按照我发布的方式运行。但是,我首先使用以下代码编写它来查找字符串的结尾: while (*s++) ; 但是,这个方法并没有奏效。我传递给它的字符串
这个问题已经有答案了: What does (?和aramchand来自Mohandas Karamchand G 因此,在使用这些匹配来分割字符串后,您最终会得到 {"M", "K", "G"} 注
我正在尝试转换 Map到 List使用 lambda。 本质上,我想将键和值与 '=' 连接起来之间。这看起来微不足道,但我找不到如何去做。 例如 Map map = new HashMap<>();
我正在经历 K & R,并且在递增指针时遇到困难。练习 5.3(第 107 页)要求您使用指针编写一个 strcat 函数。 在伪代码中,该函数执行以下操作: 将 2 个字符串作为输入。 找到字符串
在下面的代码中,pS 和 s.pS 在最后一行是否保证相等?也就是说,在语句S s = S();中,是否可以确定不会构造一个临时的S? #include using namespace std; s
演示示例代码: public void ReverseString(char[] s) { for(int i = 0, j = s.Length-1; i < j; i++, j--){
我一直在寻找类似于 .NET examples 中的示例的 PowerShell 脚本.取一个 New-TimeSpan 并显示为 1 天 2 小时 3 分钟 4 秒。排除其零的地方,在需要的地方添加
def func(s): s = s + " is corrected" return s string_list = ["She", "He"] for s in string_li
我是 python 的新手。当我在互联网上搜索 lambda 时。我在 lambda_functions 中找到了这个声明. processFunc = collapse and (lambda s:
我最近开始学习正则表达式,并试图为上面的问题写一个正则表达式。如果限制只放在一个字母上(例如不超过 2 个“b”),这并不困难。 那么答案就是:a* c*(b|ε)a* c*(b|ε)a* c* 但是
当我运行 npm install 时出现以下错误,但我无法修复它。 我试过:npm install -g windows-build-tools 也没有修复这个错误 ERR! configure
有很多有趣的haskell网上可以找到片段。 This post可以在 this (awesome) Stack Overflow question 下找到. The author写道: discou
我知道以下三行代码旨在将字符串提取到$ value中并将其存储在$ header中。但是我不知道$value =~ s/^\s+//;和$value =~ s/\s+$//;之间有什么区别。 $val
我是一名优秀的程序员,十分优秀!