gcc - mtune 实际上是如何工作的？-6ren

gcc - mtune 实际上是如何工作的？

转载作者：行者123 更新时间：2023-12-01 18:35:28

26

4

有一个相关问题:GCC: how is march different from mtune?

但是，现有的答案并没有比 GCC 手册本身更进一步。最多，我们得到:

If you use -mtune, then the compiler will generate code that works on any of them, but will favour instruction sequences that run fastest on the specific CPU you indicated.

和

The -mtune=Y option tunes the generated code to run faster on Y than on other CPUs it might run on.

但是，GCC 在构建时到底如何支持一种特定的架构，同时仍然能够在其他(通常较旧的)架构上运行构建，尽管速度较慢？

我只知道一件事(但我不是计算机科学家)能够做到这一点，那就是 CPU 调度程序。然而，(对我来说)似乎 mtune 并没有在幕后生成调度程序，而是可能有其他一些机制在起作用。

我有这样的感觉有两个原因:

搜索“gcc mtune cpudispatcher”没有找到任何相关内容；和
如果它基于调度程序，我认为它可能会更智能(即使通过 mtune 之外的某些选项)并测试 cpuid 以在运行时检测支持的指令，而不是依赖于构建时提供的命名架构。

那么它到底是如何工作的呢？

最佳答案

-mtune 不会创建调度程序，它也不需要调度程序:我们已经告诉编译器我们的目标架构是什么。

来自GCC docs :

-mtune=cpu-type

Tune to cpu-type everything applicable about the generated code, except for the ABI and the
set of available instructions.

这意味着 GCC 不会使用仅在 cpu 类型 ¹ 上可用的指令，但它将生成在 cpu 类型 上最佳运行的代码嗯>。

要理解最后这句话对于理解架构和微架构之间的区别是必要的。
该架构意味着 ISA(指令集架构)，并且不受 -mtune 的影响。
微架构是架构在硬件中的实现方式。对于相同的指令集(读:体系结构)，代码序列可能在一个 CPU(读微体系结构)上以最佳方式运行，但由于实现的内部细节而不能在另一个 CPU 上运行。这可以达到仅在一个微架构上优化代码序列的程度。

在生成机器代码时，GCC 通常在选择如何排序指令以及使用哪种变体方面具有一定的自由度。
它将使用启发式方法生成在最常见的 CPU 上快速运行的指令序列，有时它会牺牲 CPU x 的 100% 最优解决方案(如果这会惩罚 CPU y) em>、z 和 w。

当我们使用 -mtune=x 时，我们正在针对 CPU x 微调 GCC 的输出，从而生成 100% 最佳的代码(从 GCC 角度来看)在该 CPU 上。

作为一个具体示例，请考虑 how this code is compiled :

float bar(float a[4], float b[4])
{
    for (int i = 0; i < 4; i++)
    {
        a[i] += b[i];
    }

    float r=0;

    for (int i = 0; i < 4; i++)
    {
        r += a[i];
    }

    return r;
}

当针对 Skylake 或 Core2 时，a[i] += b[i]; 的矢量化(如果矢量不重叠)会有所不同:

Skylake

    movups  xmm0, XMMWORD PTR [rsi]
    movups  xmm2, XMMWORD PTR [rdi]
    addps   xmm0, xmm2
    movups  XMMWORD PTR [rdi], xmm0
    movss   xmm0, DWORD PTR [rdi]

核心2

    pxor    xmm0, xmm0
    pxor    xmm1, xmm1
    movlps  xmm0, QWORD PTR [rdi]
    movlps  xmm1, QWORD PTR [rsi]
    movhps  xmm1, QWORD PTR [rsi+8]
    movhps  xmm0, QWORD PTR [rdi+8]
    addps   xmm0, xmm1
    movlps  QWORD PTR [rdi], xmm0
    movhps  QWORD PTR [rdi+8], xmm0
    movss   xmm0, DWORD PTR [rdi]

主要区别在于 xmm 寄存器的加载方式，在 Core2 上，它使用 movlps 和 movhps 加载两次，而不是使用单个movups。
两种加载方法在 Core2 微架构上效果更好，如果您查看 Agner Fog 的指令表，您会发现 movups 被解码为 4 uops，并且有 2 个周期的延迟，而每个 movXps 为 1 uop 和 1 个延迟周期。
这可能是由于当时 128 位访问被分成了两个 64 位访问。
在 Skylake 上，情况恰恰相反:movups 的性能优于两个 movXps。

所以我们必须选择一个。
一般来说，GCC 选择第一个变体，因为 Core2 是一个旧的微架构，但我们可以使用 -mtune 覆盖它。

<小时/>

¹指令集通过其他开关选择。

关于gcc - mtune 实际上是如何工作的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44490331/

26

4

0

文章推荐： java - 参数化测试检查构造函数是否抛出异常

文章推荐： java - 将一维数组处理为 a[ (b=c) [index]]。这是什么意思？

文章推荐： java - onKeyDown 阻止硬件音量按钮工作

javascript - 实际上，渐进增强和优雅降级是一回事吗？
渐进增强和优雅降级基本是一回事吗？最佳答案不完全是。他们从不同的 Angular 解决类似的问题。 “优雅的降级”意味着你有漂亮的功能，并且可以在不支持它的浏览器中处理它不那么漂亮(但仍然需要它以
PostgreSQL 性能调整和最大连接数(实际上)
在过去的几周里，我一直在调优和处理 PostgreSQL，我将在我的下一个项目中使用它。我的规范是: DigitalOcean 8 核 16GB SSD x2(一个用于数据库，另一个用于 Web)
c++ - 实际上，负数的模数是多少？
我看过很多关于负数模的问题的答案。每一个答案都放了标准 (a/b)*b + a%b is equal to a 解释。我可以用这种方法计算任何模数，而且我知道有必要使用一个模数函数，如果它是负数，则将
java - 实际上，我会使用鸭子类型还是控制反转？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
mercurial - 标签*实际上*是如何工作的？
The docs假设所有标签都存储在 .hgtags 中，但这里显然存在一些黑魔法。我的标签如下所示: mbayazit:~/test$ cat .hgtags 0d80b6ba4ba3b51a44
perforce - 实际上，如何删除未提交的新/添加文件的待处理更改？
我正在尝试强制删除待处理的更改列表。所有文件(20 个旧文件)都是新文件，但尚未提交/提交。所以在 p4Win 中，它们显示红色 + 十字。我无法从更改列表中删除这些文件。我该如何删除这些文件？感谢
perforce - 实际上，如何从工作区中的目录中删除文件，而这些文件不属于工作区？
如果我要删除的文件不属于工作区，那么如何从工作区的目录中删除文件？我的文件系统上有一个目录，其中包含从 perforce 获取的文件，但在某些进程运行后，它会在这些目录中创建一些新文件。是否有 p
c# - 什么时候函数内的局部变量*实际上*被分配
就是好奇这个。以下是同一功能的两个代码片段: void MyFunc1() { int i = 10; object obj = null; if(something) ret
android - ConstraintLayout 不会正确调整大小(实际上)
我对使用约束布局还很陌生，我在调整布局大小方面遇到了问题，我希望它能够响应，这样我就不必再为不同的屏幕尺寸制作 10 个布局。在布局编辑器中，一切在不同尺寸下看起来都很完美，但实际上并非如此。我做了
java - 为什么用某些编译器编译的程序可以被反编译而其他的(实际上)不能？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c - 有没有办法(实际上)保护对象不被修改？
如果试图修改声明为 const 的对象，const 类型限定符会导致编译器发出错误消息，但这还不够保护。例如以下程序修改声明为 const 的数组的两个元素: #include int main(v
ios - 实际上，NSAssert 的意义何在？
我不得不问这个，因为:我唯一知道的是，如果断言失败，应用程序就会崩溃。这就是为什么要使用 NSAssert 的原因吗？或者这样做还有什么好处？将 NSAssert 置于我在代码中所做的任何假设之上是否
posix - 实际上，一般使用哪些 pthreads 功能？
我正在处理我的操作系统项目的 POSIX 子系统，并且我已经达到了我想要处理 pthreads 支持的地步。但是，我不确定我应该在多大程度上实现它们。最常用的 pthreads 功能是什么？现在有什
Mercurial clone 缺少文件(实际上，只是进入了不同的分支)
这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
java - 如何解决实际上，Mockito 中与此模拟错误的交互为零
我正在尝试运行测试类，但抛出错误实际上有零交互。 class Xtractor{ void extractValues(request,Map m1, Map m2,Map m3){
java - 如何返回扩展对象(子类)？实际上，如何返回已传递给方法的确切对象？
我有一个抽象类UIObject，如下所示: public abstract class UIObject { private final int tabOrder; public UI
Emacs Lisp 数字运算(实际上，简单的加法)
这是我尝试在 emacs lisp 中进行一些计算时得到的... (+ 2082844800. 1274511600.0) => 1209872752.0 (+ 2082844800.0 127451
swift - 实际上，如何在 Xcode 中使用一条横跨整个屏幕的垂直线分隔两个部分
我想用一条垂直线将屏幕分成两部分。垂直线应该从屏幕底部一直延伸到导航栏。如果我们使用 html/css，我只会有 2 个 div，并在右侧 div 上放置一个左边框。如果有办法在 View 的单侧放置
amazon-web-services - 实际上，如何设置Amazon AWS以使其自动缩放？
我有一个EC2实例可以正常工作数月(仍在开发中，应用程序尚未启用)，但是我只是意识到我什至不知道如何根据流量来扩大/缩小EC2实例。亚马逊提供的大量服务是压倒性的，我对此感到非常困惑。最初，虽然我
c++ - 实际上，为什么不同的编译器会计算不同的 int x =++i+++i; 值？
考虑这个代码: int i = 1; int x = ++i + ++i; 我们对编译器可能会为这段代码做些什么有一些猜测，假设它可以编译。两者 ++i返回 2 ，导致 x=4 . 一 ++i返回

首页

博学

6Ren·AI

商城

gcc - mtune 实际上是如何工作的？