gpt4 book ai didi

performance - AVX512中 "masked"存储的粒度是多少?

转载 作者:行者123 更新时间:2023-12-03 09:26:34 24 4
gpt4 key购买 nike

假设您调用 _mm512_mask_store_ps ,从 CPU 的写入缓冲区的角度来看,它是作为大小为 64 字节的存储(带有某种屏蔽)执行还是在内部作为大小为 4 字节的多个存储执行?
为了防止存储到加载转发停止 ,必须将存储的粒度(大小)与后续加载到同一内存位置的粒度相匹配。
希望这个问题有意义,我不是 CPU 架构专家。

最佳答案

正如 Iwillnotexist 所引用的:

If the mask is not all 1 or all 0, loads that depend on the maskedstore have to wait until the store data is written to the cache. Ifthe mask is all 1 the data can be forwarded from the masked store tothe dependent loads. If the mask is all 0 the loads do not depend onthe masked store.


因此,掩码存储没有存储到加载转发,除非掩码全为 1(行为类似于常规存储)或全为零(微不足道)。
在掩码存储之后加载通常会等待数据发送到缓存,因此它应该非常昂贵。

关于performance - AVX512中 "masked"存储的粒度是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63731437/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com