gpt4 book ai didi

sse - 使用 SSSE3 将 2 个未对齐的 64 位值加载到 sse 寄存器中的最佳方法是什么?

转载 作者:行者123 更新时间:2023-12-02 09:09:04 26 4
gpt4 key购买 nike

有 2 个指针指向要加载到 xmm 寄存器中的 2 个未对齐的 8 字节 block 。如果可能,使用内在函数。如果可能的话,不使用辅助寄存器。没有pinsrd。 (SSSE核心2)

最佳答案

来自 msvc specs ,看起来您可以执行以下操作:

__m128d xx;                   // an uninitialised xmm register 
xx = _mm_loadh_pd(xx, ptra); // load the higher 64 bits from (unaligned) ptra
xx = _mm_loadl_pd(xx, ptrb); // load the lower 64 bits from (unaligned) ptrb

从未对齐的存储加载(根据我的经验)比从对齐的指针加载要慢得多,因此如果您确实想要更高的性能,您应该不希望过于频繁地执行此类操作。

希望这有帮助。

关于sse - 使用 SSSE3 将 2 个未对齐的 64 位值加载到 sse 寄存器中的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7217977/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com