c++ - 英特尔 x64 的 GCC 中指向整数的指针对齐-6ren

c++ - 英特尔 x64 的 GCC 中指向整数的指针对齐

转载作者：行者123 更新时间：2023-11-30 02:29:44

26

4

我需要从某个内存位置将几个四字加在一起:

uint64_t sum2 (const char * p, size_t n)
{
    uint64_t res = 0;
    const uint32_t * q = (const uint32_t*) p;
    size_t i;
    for (i = 0; i < n; i++) res += q[i];
    return res;
}

我知道这段代码不必在任意机器上的任意 C 编译器上工作。并非每个指向 char 的指针都可以转换为指向 int 的有效指针。但是，在 Intel 上，您可以从任何地址读取 32 位值，在大多数情况下甚至没有任何性能损失，因此这段代码应该可以正常工作，而不管 p 的对齐方式如何。我的程序在 64 位 Intel Sandy Bridge 上运行，使用 GCC 4.8 使用 -msse4.2 -O3 编译。

本地址不是 4 对齐时，此代码发出 SIGSEGV。原因是循环展开四次并使用 SSE 编译。使用MOVDQA一起读取四个值，需要16位对齐。在循环之前，指针16位对齐，前提是它已经4位对齐。

如何防止 GCC 上的 SSE 优化？我确实需要添加未对齐的 32 位数字。

最佳答案

它可能会降低性能，但我认为您需要使用 memcpy 复制到正确对齐的临时文件。

uint64_t sum2 (const char * p, size_t n)
{
    uint64_t res = 0, temp;
    const uint32_t * q = (const uint32_t*) p;
    size_t i;
    for (i = 0; i < n; i++) {
        memcpy(&temp, &q[i], sizeof(*q));
        res += temp;
    }
    return res;
}

希望它不会对齐 q 或 &q[i]。如果是这种情况，您需要自己进行地址运算。

uint64_t sum2 (const char * p, size_t n)
{
    uint64_t res = 0, temp;
    size_t i;
    for (i = 0; i < n; i++, p += sizeof(uint32_t)) {
        memcpy(&temp, p, sizeof(uint32_t));
        res += temp;
    }
    return res;
}

关于c++ - 英特尔 x64 的 GCC 中指向整数的指针对齐，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39300708/

26

4

0

文章推荐： java - Spring STS初学者学习

文章推荐： android - 文件在 sdcard/download 文件夹中不存在

文章推荐： php - 为什么我得到 GET 方法？

python - 英特尔 MKL 加载失败。英特尔 MKL fatal error : Cannot load libmkl_core. dylib
我尝试设置一个文件来使用 PyCharm 编写 AI。我正在使用的教程:https://www.youtube.com/watch?v=ujTCoH21GlA 当我运行代码时: $ import t
cpu - 每个周期的浮点运算 - 英特尔
我一直在寻找很长一段时间，似乎无法找到一个官方/结论性的数字来引用英特尔至强四核可以完成的单精度浮点运算/时钟周期的数量。我有一个 Intel Xeon 四核 E5530 CPU。我希望用它来计算我
CPU比GPU训练神经网络快十几倍，英特尔：别用矩阵运算了
在深度学习与神经网络领域，研究人员通常离不开 GPU。得益于 GPU 极高内存带宽和较多核心数，研究人员可以更快地获得模型训练的结果。与此同时，CPU 受限于自身较少的核心数，计算运行需要较长的时间
英特尔 SGX 线程与 TCS
我试图了解 TCS 启用的 SGX 线程与 SDK 提供的不受信任线程之间的区别. 如果我理解正确的话，TCS 允许多个逻辑处理器进入同一个飞地。每个逻辑处理器都有自己的 TCS，因此也有自己的入口点
assembly - 英特尔 IACA 分析器改变了组装？
我想通过 IACA 分析器运行一些代码以查看它使用了多少个 uops——我从一个简单的函数开始，看看它是否在工作。不幸的是，当我插入 IACA 说要使用的宏时，生成的程序集非常不同，因此对它的任何分
security - 英特尔 SGX 开发人员许可和开源软件
是否有可能获得许可的开发人员证书，以在生产模式下签署经过安全审查、社区开发的开源 SGX 软件二进制文件，并将其发布在 apt 或 rpm 等开源存储库中？我刚问过英特尔 SGX 团队，他们说只有经
port - 英特尔 8080 指令 : OUT
我正在尝试模拟 Intel 8080 指令集，但我被这条指令卡住了 OUT D8 ，根据书Intel 8080/8085 Assembly Language Programming它说 OUT ins
fortran - 英特尔 FORTRAN 中的解除分配
我在使用一些现有的 FORTRAN 代码时发现了一个问题。尽管它已经预料到需要在重新分配之前释放数组，但这从来没有必要。我现在需要它来执行此操作，但它无法正常运行。当前的伪代码大约是: MODULE
fortran - 英特尔 Fortran 中结构内的数据对齐
我正在尝试在内存中对齐以下类型的数据: type foo real, allocatable, dimension(:) :: bar1, bar2 !dir$ attributes al
gpl - 英特尔 TBB 许可证
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
multithreading - 英特尔 SFENCE 有发布语义吗？
似乎获得和释放语义的公认定义是这样的: (引自 http://msdn.microsoft.com/en-us/library/windows/hardware/ff540496(v=vs.85).a
multithreading - 英特尔 TBB 流程图开销
这是我对英特尔 TBB 流图性能进行基准测试的尝试。这是设置: 一个广播节点发送continue_msg到 N 后继节点 (一broadcast_node) 每个后继节点执行一次计算，该计算需要 t
javascript - 英特尔 xdk - 服务器端
我有两个问题第一个问题:我使用 css3、HTML5、JavaScript 开发应用程序。在我的应用程序中，我需要从数据库中获取数据。我该怎么做？第二个问题:intel xdk 在构建 l 时必须
performance - 英特尔 CPU 指令队列提供静态分支预测？
在英特尔手册的第 3 卷中，它包含硬件事件计数器的描述: BACLEAR_FORCE_IQ Counts number of times a BACLEAR was forced by the Ins
javascript - 英特尔 xdk 数据库
嘿，我正在使用 Intel xdk 开发混合应用程序。我已经创建了注册表，然后我将代码放在那里。我尝试使用 Php Mysql 将数据库插入我的数据库后。如果我单击注册按钮，它会显示这样的错误 [
c - 英特尔 C++ - 优化器消息
我想知道是否可以让英特尔 C++ 编译器(或其他编译器，如 gcc 或 clang)显示一些来自优化器的消息。我想知道优化器究竟对我的代码做了什么。默认情况下，编译器只打印非常基本的东西，比如未使用的
assembly - 英特尔 AVX2 组装开发
我正在使用 64 位架构的 Intel 程序集优化我的视频解码器。为了优化，我使用 AVX2 指令集。我的开发环境:- 操作系统:- Win 7(64位) IDE:- MSVS 2008(教授) C
fortran - 英特尔 Fortran 值属性
如果这是一个非常愚蠢的问题，我很抱歉；我的 Fortran 不太好。我正在移植一些旧的 Fortran 代码，并遇到了这个子例程定义: SUBROUTINE SET_HYDROMODULE(HYDRO
cordova - 英特尔 XDK + Phonegap
请问，我是否可以将 Intel XDK API 和 Phonegap API 集成到单个移动应用程序中？这是因为，某些 API 仅在 Phonegap 中可用，反之亦然。最佳答案是的，如果我正确理
assembly - 英特尔 x86 操作码引用？
在 x86 中查找任意操作码的含义(例如 0xC8 )的相对快速简便的方法是什么？ Intel Software Developer's manual搜索起来不是很有趣...... 最佳答案查询 t

首页

博学

6Ren·AI

商城

c++ - 英特尔 x64 的 GCC 中指向整数的指针对齐