- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我用汇编写了一个算术整数库。我想估计与我的处理器(Intel Sandy Bridge)的峰值性能相比的性能。
由于整数运算是由 Sandy Bridge 的 3 个 ALU 执行的,“3 *(核心数)* 频率”是否足以进行估算?我的汇编中 99% 是 addq、adcq、mulq
指令)。
最佳答案
没有。
影响任何代码速度的因素有很多。诸如导致停顿的指令之间的依赖关系、缓存访问和缓存速度、缓存未命中和 RAM 速度等。
特别是对于 Sandy Bridge,还有超线程(那些 ALU 由 2 个逻辑 CPU 共享)以及涡轮增压和电源管理。然后是分页(TLB 查找和 TLB 未命中)。
最重要的是操作系统开销;包括内核解决页面错误的速度有多快(用于各种“写时复制”和“写时分配”目的),如何跨 CPU 安排所有工作,发生多少次任务切换以及它们有多快,互斥锁/处理 futexes 等。
关于assembly - MIPS 整数 Sandy Bridge,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13308731/
我想计算我的代码的计算强度,但它适用于整数,而不是 float 。我考虑过使用 PAPI 计算操作次数,但硬件不提供整数操作计数器。我该怎么做? 最佳答案 如果您指定 --detailed-count
我正试图找到合适的原始性能事件描述符来监控 Intel Xeon E5-2600 (Sandy Bridge) 上的 QPI 流量(带宽)。 我发现了一个看似相关的事件 here (qpi_data_
我用汇编写了一个算术整数库。我想估计与我的处理器(Intel Sandy Bridge)的峰值性能相比的性能。 由于整数运算是由 Sandy Bridge 的 3 个 ALU 执行的,“3 *(核心数
我能够把关于 Sandy Bridge-E 架构的一些东西放在一起,但我并不完全确定所有的参数,例如L2 缓存的大小。任何人都可以确认他们都是正确的吗?我的主要来源是 64-ia-32-archite
我编写了以下 Java 测试 public class NegativeTest { /** * @param args */ public static void main(String[] a
我想知道是否有办法利用在英特尔沙桥 CPU 中发现的新的基于硬件的真数生成器?我读到英特尔的 MKL(数学内核库)公开了此功能,但这需要 MKL 套件和英特尔编译器,最终非常昂贵。 有没有其他方法可以
我的问题不是关于 GPGPU。我对 GPGPU 的理解相当不错,但这不是我想要的。据推测,英特尔的 Sand Bridge 具有一些允许您直接在 GPU 上执行计算的功能。 这是真的吗? 我计划编写的
在 Agner Fog 的优秀 microarchitecture.pdf (section 9.14)我读到: Store forwarding works in the following cas
我正在阅读 Sandi Metz 的 POODR,并且遇到了一个我不太了解的编码原则。这是代码: class Bicycle attr_reader :size, :chain, :tire_siz
我正在运行 Core i7 3930k,它属于 Sandy Bridge 微架构。 执行以下代码(在MSVC19、VS2015下编译)时,结果让我很惊讶(见评论): int wmain(int arg
我注意到 Clang 为以下代码段做了一个有趣的除法优化技巧 int64_t s2(int64_t a, int64_t b) { return a/b; } 如果指定 march,则以下是程
我试图强制我的应用程序使用主 GPU。现在它会自动占用 CPU 上的一个。我在 DirectX9 和 OpenGL 上都试过了。 当我调用 GetAdapterCount() 函数时,DirectX
请不要说这是过早的微优化。鉴于我有限的知识,我想尽可能多地了解所描述的 SB 功能和程序集的工作原理,并确保我的代码使用此架构功能。感谢您的理解。 几天前我开始学习内在函数,所以答案对某些人来说似乎很
这个问题在这里已经有了答案: Count each bit-position separately over many 64-bit bitmasks, with AVX but not AVX2 (
第一次在这里发帖。 我想知道是否有类似于其他处理器(Intel i7)的运行平均功率限制的东西,这些处理器不是 Sandy Bridge 或 Xeon 处理器,因为我在实验室工作的机器。 对于那些不知
我正在尝试弄清楚如何正确设置 -march 选项,以了解在使用 gcc 4.7.2 的电脑上启用和禁用该选项之间会出现多少性能差异。 在尝试编译之前,我试图找到最适合我的电脑的 -march 选项。我
wiki 网页( https://en.wikipedia.org/wiki/Sandy_Bridge )提到,对于 4KB、2MB 和 1GB 的页面,Data TLB 分别有 64、32 和 4
在第 153 页,她区分了 is-a 和 behaves-like 的区别。继承对应于is-a,而模块对应于behaves-like。但真正的区别是什么?这两种技术都依赖于通过自动消息委托(deleg
是否有任何方法可以确定或任何资源可以找到 Haswell、Sandy Bridge、Ivy Bridge 和 Skylake Intel 处理器的分支目标缓冲区大小? 最佳答案 检查 Agner Fo
在英特尔 intrinsics webapp ,从桑迪布里奇到哈斯韦尔,一些操作似乎已经恶化。例如,像 _mm256_insertf128_si256 这样的许多插入操作显示的成本表如下所示:
我是一名优秀的程序员,十分优秀!