c - _mm_crc32_u64 定义不明确-6ren

c - _mm_crc32_u64 定义不明确

转载作者：太空狗更新时间：2023-10-29 17:07:17

24

4

为什么 _mm_crc32_u64(...) 是这样定义的？

unsigned int64 _mm_crc32_u64( unsigned __int64 crc, unsigned __int64 v );

“crc32”指令总是累积 32 位 CRC，从不64 位 CRC(毕竟它是 CRC32 而不是 CRC64)。如果机器指令 CRC32 碰巧有一个 64 位目标操作数，高 32 位将被忽略，并在完成时用 0 填充，因此永远没有 64 位目标。我理解为什么英特尔允许在指令上使用 64 位目标操作数(为了统一)，但如果我想快速处理数据，我想要一个尽可能大的源操作数(即 64 位，如果我有那么多数据，尾端更小)并且始终是 32 位目标操作数。但是内在函数不允许 64 位源和 32 位目标。注意其他内在函数:

unsigned int _mm_crc32_u8 ( unsigned int crc, unsigned char v );

“crc”的类型不是8位类型，也不是返回类型，是32位的。为什么没有

unsigned int _mm_crc32_u64 ( unsigned int crc, unsigned __int64 v );

? Intel 指令支持这个，那个是最有意义的内在指令。

是否有人拥有可移植代码(Visual Studio 和 GCC)来实现后者的内在特性？谢谢。我的猜测是这样的:

#define CRC32(D32,S) __asm__("crc32 %0, %1" : "+xrm" (D32) : ">xrm" (S))

对于海湾合作委员会，以及

#define CRC32(D32,S) __asm { crc32 D32, S }

用于 VisualStudio。不幸的是，我对约束的工作原理知之甚少，对汇编级编程的语法和语义也知之甚少。

小修改:注意我定义的宏:

#define GET_INT64(P) *(reinterpret_cast<const uint64* &>(P))++
#define GET_INT32(P) *(reinterpret_cast<const uint32* &>(P))++
#define GET_INT16(P) *(reinterpret_cast<const uint16* &>(P))++
#define GET_INT8(P)  *(reinterpret_cast<const uint8 * &>(P))++


#define DO1_HW(CR,P) CR =  _mm_crc32_u8 (CR, GET_INT8 (P))
#define DO2_HW(CR,P) CR =  _mm_crc32_u16(CR, GET_INT16(P))
#define DO4_HW(CR,P) CR =  _mm_crc32_u32(CR, GET_INT32(P))
#define DO8_HW(CR,P) CR = (_mm_crc32_u64((uint64)CR, GET_INT64(P))) & 0xFFFFFFFF;

注意最后一个宏语句有多么不同。缺乏统一性无疑表明内在因素尚未得到合理定义。虽然没有必要在最后一个宏中放入显式 (uint64) cast，但它是隐式的并且确实发生了。反汇编生成的代码显示了 32->64 和 64->32 的代码，这两者都是不必要的。

换句话说，它是 _mm_crc32_u64，不是 _mm_crc64_u64，但他们已经实现了它，就好像它是后者一样。

如果我能得到上面的 CRC32 的正确定义，那么我想将我的宏更改为

#define DO1_HW(CR,P) CR = CRC32(CR, GET_INT8 (P))
#define DO2_HW(CR,P) CR = CRC32(CR, GET_INT16(P))
#define DO4_HW(CR,P) CR = CRC32(CR, GET_INT32(P))
#define DO8_HW(CR,P) CR = CRC32(CR, GET_INT64(P))

最佳答案

所提供的 4 个内部函数确实允许使用英特尔定义的 CRC32 指令的所有可能用途。指令输出始终为 32 位，因为指令被硬编码为使用特定的 32 位 CRC 多项式。但是，该指令允许您的代码一次将 8、16、32 或 64 位的输入数据提供给它。一次处理 64 位应该最大化吞吐量。如果限于 32 位构建，一次处理 32 位是最好的。如果输入字节数是奇数或不是 4/8 的倍数，一次处理 8 位或 16 位可以简化您的代码逻辑。

#include <stdio.h>
#include <stdint.h>
#include <intrin.h>

int main (int argc, char *argv [])
    {
    int index;
    uint8_t *data8;
    uint16_t *data16;
    uint32_t *data32;
    uint64_t *data64;
    uint32_t total1, total2, total3;
    uint64_t total4;
    uint64_t input [] = {0x1122334455667788, 0x1111222233334444};

    total1 = total2 = total3 = total4 = 0;
    data8  = (void *) input;
    data16 = (void *) input;
    data32 = (void *) input;
    data64 = (void *) input;

    for (index = 0; index < sizeof input / sizeof *data8; index++)
        total1 = _mm_crc32_u8 (total1, *data8++);

    for (index = 0; index < sizeof input / sizeof *data16; index++)
        total2 = _mm_crc32_u16 (total2, *data16++);

    for (index = 0; index < sizeof input / sizeof *data32; index++)
        total3 = _mm_crc32_u32 (total3, *data32++);

    for (index = 0; index < sizeof input / sizeof *data64; index++)
        total4 = _mm_crc32_u64 (total4, *data64++);

    printf ("CRC32 result using 8-bit chunks: %08X\n", total1);
    printf ("CRC32 result using 16-bit chunks: %08X\n", total2);
    printf ("CRC32 result using 32-bit chunks: %08X\n", total3);
    printf ("CRC32 result using 64-bit chunks: %08X\n", total4);
    return 0;
    }

关于c - _mm_crc32_u64 定义不明确，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15752770/

24

4

0

文章推荐： c - char * 的大小是否与 int * 的大小相同？

文章推荐： c - 是否允许编译器通过重新排序局部变量来优化堆栈内存使用？

文章推荐： c - 你怎么称呼结构的实例？

linux - compiler.h 文件中有 __cond_lock(x,c) 定义，但没有 __cond_unlock(x,c) 定义？
在complier.h中有一个宏定义如下: # define __cond_lock(x,c) ((c) ? ({ __acquire(x); 1; }) : 0) 但是这里我有一个问题，就是哪里
CURLOPT_ 定义
curl_easy_setopt 的选项在哪里？定义？我试图寻找 CURLOPT_VERBOSE 和其他一些整数值，但这些似乎没有在 curl.h 中明确定义。最佳答案第 792 行: #ifde
dllimport静态数据成员的C++定义
我确实有一个如下所示的类(class): //.h file class __declspec(dllimport) MyClass { public: //stuff pri
关系代数与逻辑优化规则(一):定义
作者: zhuwenzhuang, 2024.05.08. 阅读前假设读者熟悉数据库使用,了解 SQL 的语法和关系算子的大概含义, 能通过 EXPLAIN 命令查看数据库执行计划. 0 前言
Swagger header 定义
我似乎无法找到是否可以声明一个 header 对象以便在响应 header 中重用它，有一些示例定义了响应模式的对象，但它不会转置为响应 header 。我只设法制作了一个可重用的响应对象，如下所示:
CSS 选择器 * + * 定义？
css 选择器 * + * 实际上是什么意思？当您执行检查元素时，您可以在谷歌浏览器的控制台中看到它。在我看来，这似乎是对 "Every second child"应用一种风格，但仍然想确定。谁能帮我
Haskell primPutChar 定义
我试图弄清楚基本的IO Haskell 函数是定义好的，所以我使用了this reference我到了putChar函数定义: putChar :: Char -> IO () putChar
.net - TargetFrameworkAttribute 定义
我得到了一个自动生成的文件，该文件定义了程序集属性，我正在尝试理解内容。 [assembly: global::System.Runtime.Versioning.TargetFrameworkAtt
gnuplot，检查函数是否存在(定义)
This文档演示了如何检查变量是否先前已在 gnuplot 脚本中定义。文档中的示例: a = 10 if (exists("a")) print "a is defined" if (!exist
scheme - 定义、让和设置之间的区别!
好吧，这是一个相当基本的问题:我正在关注 SICP 视频，我对 define、let 和之间的区别有点困惑设置!. 1) 根据 Sussman 在视频中的说法，define 只允许为变量附加一个值一
枚举值的 XSD 定义
我一直在尝试定义一个包含只能具有以下三个值之一的字段的 XSD: 绿色红色蓝色本质上，我想在架构级别定义严格的枚举。我的第一次尝试似乎是错误的，我不确定修复它的“正确”方法。
class - “POCO”定义
有人可以定义“POCO”到底是什么意思吗？我越来越频繁地遇到这个术语，我想知道它是否仅与普通类有关还是意味着更多？最佳答案 “普通旧式 C# 对象” 只是一个普通的类，没有描述基础结构问题或域对象不
django CharField 定义
在我经常看到的一些django模型中 myfield = models.CharField(_('myfield')) class_name = models.CharField(_('Type'),
c - boolean 定义
每当 BOOL 数据类型不容易预定义时，我都会使用以下定义进行 boolean 运算， typedef unsigned char BOOL; (由于内存使用)。我意识到出于性能原因，使用本地总线宽
Java: vector 定义
l_ABC_BEANVector = utilRemote.fnGetVector("ABC_COVBEANVector"); 编码的含义是什么？任何帮助，我真的很感激。谢谢最佳答案唯一可以肯定地
JAVACC token 定义
我正在使用 javacc 开发一个项目，我遇到问题并需要一些帮助，我的文件中有这样的内容: STRING COPYRIGHT (C) 2003, 2004 SYNOPSYS, INC.; 我为单词 S
Haskell primPutChar 定义
我想弄清楚基本的 IO定义了 Haskell 函数，所以我使用了 this reference然后我到了 putChar函数定义: putChar :: Char -> IO () putCha
python - 定义@property
我在具体类中使用 @property 定义 getter 时遇到问题。这是Python代码: from abc import ABCMeta, abstractproperty class abstr
C 定义/全局变量依赖于其他东西
我正在为大学用 C 语言编写一个小游戏，但我陷入了困境。我(在头文件中)有这个结构: typedef struct{ game_element field[MAX_ROWS][MAX_COLU
c - 如何从flex文件中读取规则(定义)？
我一直在 .l 文件中创建标记定义。由于数据集数量庞大，它变得有点乏味。有没有办法读取文件中的所有单词，例如包含所有名词的 noun.txt 并给所有名词一个标记。基本上，我想自动化这部分: %%

首页

博学

6Ren·AI

商城

c - _mm_crc32_u64 定义不明确