assembly - MIPS 整数 Sandy Bridge-6ren

assembly - MIPS 整数 Sandy Bridge

转载作者：行者123 更新时间：2023-12-02 03:54:26

25

4

我用汇编写了一个算术整数库。我想估计与我的处理器(Intel Sandy Bridge)的峰值性能相比的性能。

由于整数运算是由 Sandy Bridge 的 3 个 ALU 执行的，“3 *(核心数)* 频率”是否足以进行估算？我的汇编中 99% 是 addq、adcq、mulq 指令)。

最佳答案

没有。

影响任何代码速度的因素有很多。诸如导致停顿的指令之间的依赖关系、缓存访问和缓存速度、缓存未命中和 RAM 速度等。

特别是对于 Sandy Bridge，还有超线程(那些 ALU 由 2 个逻辑 CPU 共享)以及涡轮增压和电源管理。然后是分页(TLB 查找和 TLB 未命中)。

最重要的是操作系统开销；包括内核解决页面错误的速度有多快(用于各种“写时复制”和“写时分配”目的)，如何跨 CPU 安排所有工作，发生多少次任务切换以及它们有多快，互斥锁/处理 futexes 等。

关于assembly - MIPS 整数 Sandy Bridge，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13308731/

25

4

0

文章推荐： java - 在java中将无符号字节数组(即short[])解码为字符串

文章推荐： java - 以整数/字符串形式输入并将其存储在数组中

文章推荐： c - 在C中读取matlab的mat文件

计算 Sandy Bridge 上的整数运算
我想计算我的代码的计算强度，但它适用于整数，而不是 float 。我考虑过使用 PAPI 计算操作次数，但硬件不提供整数操作计数器。我该怎么做？最佳答案如果您指定 --detailed-count
profiling - Sandy Bridge QPI 带宽性能事件
我正试图找到合适的原始性能事件描述符来监控 Intel Xeon E5-2600 (Sandy Bridge) 上的 QPI 流量(带宽)。我发现了一个看似相关的事件 here (qpi_data_
assembly - MIPS 整数 Sandy Bridge
我用汇编写了一个算术整数库。我想估计与我的处理器(Intel Sandy Bridge)的峰值性能相比的性能。由于整数运算是由 Sandy Bridge 的 3 个 ALU 执行的，“3 *(核心数
cpu - Sandy-Bridge CPU 规范
我能够把关于 Sandy Bridge-E 架构的一些东西放在一起，但我并不完全确定所有的参数，例如L2 缓存的大小。任何人都可以确认他们都是正确的吗？我的主要来源是 64-ia-32-archite
java - Sandy-Bridge CPU 优化？
我编写了以下 Java 测试 public class NegativeTest { /** * @param args */ public static void main(String[] a
c++ - 利用 sandy bridge 的硬件真随机数生成器？
我想知道是否有办法利用在英特尔沙桥 CPU 中发现的新的基于硬件的真数生成器？我读到英特尔的 MKL(数学内核库)公开了此功能，但这需要 MKL 套件和英特尔编译器，最终非常昂贵。有没有其他方法可以
c - 将代码加载到 GPU(Intel Sandy Bridge)
我的问题不是关于 GPGPU。我对 GPGPU 的理解相当不错，但这不是我想要的。据推测，英特尔的 Sand Bridge 具有一些允许您直接在 GPU 上执行计算的功能。这是真的吗？我计划编写的
c - Sandy Bridge 上的 32 字节存储转发
在 Agner Fog 的优秀 microarchitecture.pdf (section 9.14)我读到: Store forwarding works in the following cas
ruby - 有人可以帮助解释类创建的 post_initialize 回调吗 (Sandi Metz)
我正在阅读 Sandi Metz 的 POODR，并且遇到了一个我不太了解的编码原则。这是代码: class Bicycle attr_reader :size, :chain, :tire_siz
assembly - 为什么 TZCNT 适用于我的 Sandy Bridge 处理器？
我正在运行 Core i7 3930k，它属于 Sandy Bridge 微架构。执行以下代码(在MSVC19、VS2015下编译)时，结果让我很惊讶(见评论): int wmain(int arg
assembly - 为什么 Clang 只从 Sandy Bridge 开始做这个优化技巧？
我注意到 Clang 为以下代码段做了一个有趣的除法优化技巧 int64_t s2(int64_t a, int64_t b) { return a/b; } 如果指定 march，则以下是程
c++ - 将渲染设备从 Sandy Bridge GPU 更改为主 GPU
我试图强制我的应用程序使用主 GPU。现在它会自动占用 CPU 上的一个。我在 DirectX9 和 OpenGL 上都试过了。当我调用 GetAdapterCount() 函数时，DirectX
c - 当编译器对 Sandy 上的 AVX 指令重新排序时，它会影响性能吗？
请不要说这是过早的微优化。鉴于我有限的知识，我想尽可能多地了解所描述的 SB 功能和程序集的工作原理，并确保我的代码使用此架构功能。感谢您的理解。几天前我开始学习内在函数，所以答案对某些人来说似乎很
c++ - 如何在 Sandy Bridge 上的一系列整数中快速将位计数到单独的 bin 中？
这个问题在这里已经有了答案: Count each bit-position separately over many 64-bit bitmasks, with AVX but not AVX2 (
linux - 类似于 RAPL 的非 Sandy Bridge/xeon 处理器
第一次在这里发帖。我想知道是否有类似于其他处理器(Intel i7)的运行平均功率限制的东西，这些处理器不是 Sandy Bridge 或 Xeon 处理器，因为我在实验室工作的机器。对于那些不知
gcc - 对于基于 Sandy Bridge 的 Pentium，正确的特定于体系结构的选项 (-m) 是什么？
我正在尝试弄清楚如何正确设置 -march 选项，以了解在使用 gcc 4.7.2 的电脑上启用和禁用该选项之间会出现多少性能差异。在尝试编译之前，我试图找到最适合我的电脑的 -march 选项。我
architecture - Intel 的 Sandy Bridge CPU 中 TLB 的大小是如何确定的？
wiki 网页( https://en.wikipedia.org/wiki/Sandy_Bridge )提到，对于 4KB、2MB 和 1GB 的页面，Data TLB 分别有 64、32 和 4
ruby - 在 Sandi Metz 的 OO Design in Ruby 书中，模块和继承有什么区别？
在第 153 页，她区分了 is-a 和 behaves-like 的区别。继承对应于is-a，而模块对应于behaves-like。但真正的区别是什么？这两种技术都依赖于通过自动消息委托(deleg
x86 - Haswell、Sandy Bridge、Ivy Bridge 和 Skylake 的 BTB 大小？
是否有任何方法可以确定或任何资源可以找到 Haswell、Sandy Bridge、Ivy Bridge 和 Skylake Intel 处理器的分支目标缓冲区大小？最佳答案检查 Agner Fo
x86-64 - 为什么英特尔宣传的某些 Haswell AVX 延迟比 Sandy Bridge 慢 3 倍？
在英特尔 intrinsics webapp ，从桑迪布里奇到哈斯韦尔，一些操作似乎已经恶化。例如，像 _mm256_insertf128_si256 这样的许多插入操作显示的成本表如下所示:

首页

博学

6Ren·AI

商城

assembly - MIPS 整数 Sandy Bridge