intel - Haswell 微架构在性能中没有停滞周期后端-6ren

intel - Haswell 微架构在性能中没有停滞周期后端

转载作者：行者123 更新时间：2023-12-01 19:05:37

27

4

我在 Haswell CPU(Intel Core i7-4790)上安装了 perf。但“性能列表”不包括“stalled-cycles-frontend”或“stalled-cycles-backend”。我检查了http://www.intel.com/content/www/us/en/processors/architectures-software-developer-manuals.html从表19-7(第四代智能英特尔酷睿处理器的处理器核心中的非架构性能事件)中没有找到与stalled-cycles-backend相关的性能事件。

所以我的问题是:如何使用 Haswell CPU 内核中的 perf 或其他工具来测量停滞周期后端。内核是3.19，perf版本也是3.19。

谢谢

最佳答案

是的，对于 Ivy Bridge 或 Haswell 等较新的处理器，内核中的 perf_events 子系统中没有“stalled-cycles-frontend”和“stalled-cycles-backend”合成事件的映射。并且在较旧的 Core 2 上没有映射。也许，这个名称/概念/想法不适合现代乱序 CPU 的变化和复杂的微体系结构，而无需对全局“失速”进行简单的标量测量。

代码is in arch/x86/events/intel/core.c ，合成事件名称为 PERF_COUNT_HW_STALLED_CYCLES_FRONTEND 和 PERF_COUNT_HW_STALLED_CYCLES_BACKEND:

__init int intel_pmu_init(void)
{...

两者都是从 Nehalem 开始为 Westmere、Sandy Bridge 定义的:

    case INTEL_FAM6_NEHALEM:
    case INTEL_FAM6_NEHALEM_EP:
    case INTEL_FAM6_NEHALEM_EX:

        /* UOPS_ISSUED.STALLED_CYCLES */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);
        /* UOPS_EXECUTED.CORE_ACTIVE_CYCLES,c=1,i=1 */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_BACKEND] =
            X86_CONFIG(.event=0xb1, .umask=0x3f, .inv=1, .cmask=1);

    case INTEL_FAM6_WESTMERE:
    case INTEL_FAM6_WESTMERE_EP:
    case INTEL_FAM6_WESTMERE_EX:

        /* UOPS_ISSUED.STALLED_CYCLES */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);
        /* UOPS_EXECUTED.CORE_ACTIVE_CYCLES,c=1,i=1 */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_BACKEND] =
            X86_CONFIG(.event=0xb1, .umask=0x3f, .inv=1, .cmask=1);


    case INTEL_FAM6_SANDYBRIDGE:
    case INTEL_FAM6_SANDYBRIDGE_X:


        /* UOPS_ISSUED.ANY,c=1,i=1 to count stall cycles */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);
        /* UOPS_DISPATCHED.THREAD,c=1,i=1 to count stall cycles*/
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_BACKEND] =
            X86_CONFIG(.event=0xb1, .umask=0x01, .inv=1, .cmask=1);

仅为 Ivy Bridge 定义了前端停顿

    case INTEL_FAM6_IVYBRIDGE:
    case INTEL_FAM6_IVYBRIDGE_X:

        /* UOPS_ISSUED.ANY,c=1,i=1 to count stall cycles */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);

对于最新的 CPU 桌面(Haswell、Broadwell、Skylake、Kaby Lake)和 Phi(KNL、KNM)没有前端和后端停顿的映射:

    case INTEL_FAM6_HASWELL_CORE:
    case INTEL_FAM6_HASWELL_X:
    case INTEL_FAM6_HASWELL_ULT:
    case INTEL_FAM6_HASWELL_GT3E:

    case INTEL_FAM6_BROADWELL_CORE:
    case INTEL_FAM6_BROADWELL_XEON_D:
    case INTEL_FAM6_BROADWELL_GT3E:
    case INTEL_FAM6_BROADWELL_X:


    case INTEL_FAM6_XEON_PHI_KNL:
    case INTEL_FAM6_XEON_PHI_KNM:


    case INTEL_FAM6_SKYLAKE_MOBILE:
    case INTEL_FAM6_SKYLAKE_DESKTOP:
    case INTEL_FAM6_SKYLAKE_X:
    case INTEL_FAM6_KABYLAKE_MOBILE:
    case INTEL_FAM6_KABYLAKE_DESKTOP:

也没有为旧 Core2 定义(没有检查 Atoms):

http://elixir.free-electrons.com/linux/v4.11/source/arch/x86/events/intel/core.c#L27

static u64 intel_perfmon_event_map[PERF_COUNT_HW_MAX] __read_mostly =
{
    [PERF_COUNT_HW_CPU_CYCLES]      = 0x003c,
    [PERF_COUNT_HW_INSTRUCTIONS]        = 0x00c0,
    [PERF_COUNT_HW_CACHE_REFERENCES]    = 0x4f2e,
    [PERF_COUNT_HW_CACHE_MISSES]        = 0x412e,
    [PERF_COUNT_HW_BRANCH_INSTRUCTIONS] = 0x00c4,
    [PERF_COUNT_HW_BRANCH_MISSES]       = 0x00c5,
    [PERF_COUNT_HW_BUS_CYCLES]      = 0x013c,
    [PERF_COUNT_HW_REF_CPU_CYCLES]      = 0x0300, /* pseudo-encoding */
};

关于intel - Haswell 微架构在性能中没有停滞周期后端，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36348940/

27

4

0

文章推荐： ios - 如何在ios中按字母顺序显示搜索结果

文章推荐： ios - nsarray 有很多 url，在 progressview 上加载

文章推荐： ios - 自定义IOS7alertview行为

文章推荐： java - 如何在 JAVA 中使用 STAX 解析器读取标签内的值

没有调整元素大小的 jquery 端
我有一个使用 css 列的下拉菜单，当我使用 jquery slide() 时，它会调整下拉框的大小，并重排内容直到达到完整高度。这是一个工作示例 https://codepen.io/peterg
c# - WPF ScrollViewer 端
我有一个带有嵌套 ScrollViewer 的 Expander，如下所示: 代码(简化版)
php - Javascript 端 RequestHandler
我想在所有 ajax 调用之后调用一些 javascript 函数。我知道如何调用每个单独的 ajax 调用中的函数，如下所示: function xyz() { if (window.XMLHttp
android - 如何通过多部分实体方法将值从应用程序传递到 api 端？
我想将值从应用程序端传递到 api。在此 api 调用中传递图像、名字、电子邮件、电话和位置。在 Debug模式下，检查值不会被传递。代码下方 File file = null;
Django reportlab 插入分页符 html 端
我正在尝试在使用reportlab生成的pdf中的表格后插入分页符，我正在使用以下函数生成pdf: def render_to_pdf(template_src, context_dict): t
osx-mavericks - 终止连接 CBPeripheralManager 端
CBPeripheralManager 是否有推荐的方法来终止连接。到目前为止我发现的最好的方法就是干脆不响应动态值，然后 BLE 堆栈似乎关闭了连接，但这似乎很粗糙。一定有更好的方法吗？最佳答案
jQuery getJSON 不适用于 REST 端
我的 API 的 REST 端位于以下地址:http://test.jll.aplikacje-dedykowane.pl/rest/warehouse/all 。现在，我尝试返回在此页面准备的 JS
android - C++ 信号处理程序无法通知 Java 端
我有以下 CPP 代码。我想做的是，当我的 native 端发生错误时，我会通知 Java 该错误。我用了How can I catch SIGSEGV (segmentation fault) an
django - 你如何限制列表对象模板端，而不是 View 端
限制对象的方法之一是像这样给函数添加限制 def ten_objects(): obj = Model.objects.all()[0:10] # limit to 10 retur
java - Web 端、移动开发、独立应用程序该走哪条路？
我目前在电信公司实习，这是一个专业，也是本科生。我有很多选择。据我所知，我知道独立应用程序端的 c、c++、c#、java 语言，在移动端我尝试进入 android 世界，也知道 php、mysql、
html - CSS中border-bottom的 flex 端
我想让我的边框底部看起来像这样: 有一个 flex 的末端。目前它看起来像这样: 我尝试使用的 CSS 是 border-bottom-right-radius: 10px;。代码如下所示:
显示错误的 Flutter 项目的 Android 端
我有一个 Flutter 项目，突然间，据我所知，我没有做任何特别的事情..Android 端开始显示错误，我完全迷路了，我完全不知道哪里出了问题，也不知道为什么会这样。这就是我打开 android
android - 传递自定义对象的数组列表以从 android 响应 native 端
我有一个自定义对象列表 (List) 。我需要将此数据发送到 React Native 端以显示在平面列表中。我该怎么做？这个列表出现在类 NativeToReact(reactContext:Re
java - 为什么这个 JNI 程序不将浮点值复制回 Java 端？
我有这个代码: #if defined(NOT_STANDALONE) JNIEXPORT void JNICALL sumTraces (JNIEnv* env, jclass caller,
python - 如何自定义 Django 模型的 python 端？
我有一个定义一对多模型关系的 Django 应用程序。模型如下所示: from django.db import models # Create your models here. class Str
javascript - 单击 iframe 中的某些链接时如何更新 iframe 端？
我有以下代码，它根据 IFrame 内容的大小调整 IFrame 的大小: function setIframeHeight(id) {
javascript - 如何创建自定义过滤器 angularjs javascript Controller 端？
如何创建自定义过滤器 angularjs javascript Controller 端？我想通过 SegmentId 在名为段的数组中搜索，以创建过滤器，该过滤器通过 SegmentId 在段数组搜
java - 无法在 Netbeans 中查看 Jframe 端
我的代码在 netbeans 8.0.2 中我几乎尝试了所有方法，但没有结果。请帮助我。如何在 netbeans 中显示它？最佳答案您只需单击源包(源文件)，它就会显示您的项目文件。关于java
c++ - 将结构与 std140 对齐，CPU 端
我想这是纯 C++ 问题和 OpenGL 问题之间的一种交叉。我有一个统一的缓冲区，并在其中分配 sizeof(ShaderData) 字节的空间。我在着色器的 GPU 端使用 std140 布局。
hadoop - 理解在 Hadoop 中合并到 reduce 端
我对 Hadoop 中 reduce 端的文件合并过程的理解有问题，因为它在“Hadoop:权威指南”(Tom White)中有所描述。引用它: When all the map outputs ha

首页

博学

6Ren·AI

商城

intel - Haswell 微架构在性能中没有停滞周期后端