- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我有一个功能是我的程序的瓶颈。它不需要访问内存,只需要计算。它是内部循环并被多次调用,因此对这个函数的任何小收获对我的程序来说都是巨大的胜利。
我具有在 PS3 上优化 SPU 代码的背景,您可以在其中获取 SPU 程序并通过管道分析器运行它,您可以将每个汇编语句放在自己的列中,并最大限度地减少函数所花费的周期数。然后你覆盖循环,这样你就可以进一步减少管道依赖。有了这个程序和每条汇编指令所花费的所有周期的列表,我可以比编译器更好地优化。
在不同的平台上,它有我可以注册的事件(缓存未命中、循环等),我可以运行该函数并跟踪 CPU 事件。那也不错。
现在我正在使用带有 Core i7 Intel 处理器的 Visual Studio C++ 2010 在 Windows 上做一个爱好项目。我没有足够的钱来证明支付 VTune 的巨额费用是合理的。
我的问题:
如何在 Windows 上为英特尔处理器在汇编级别分析函数?
我想编译、查看反汇编、获取性能指标、调整我的代码并重复。
最佳答案
有一些很棒的免费工具可用,主要是 AMD 的 CodeAnalyst(根据我在 i7 与我的 phenom II 上的经验,它在英特尔处理器上有点障碍,因为它无法访问直接的硬件特定计数器,尽管那可能是错误的配置)。
然而,一个鲜为人知的工具是 Intel Architecture Code Analyser (与 CodeAnalyst 一样免费),它类似于您描述的 spu 工具,因为它为您的程序组装逐行详细说明延迟、吞吐量和端口压力(基本上是请求分派(dispatch)到 ALU、MMU 等)。 Stan Melax 给了一个不错的 talk关于它和今年 GDC 上的 x86 优化,标题为“hotspots, flops and uops: to-the-metal cpu optimization”。
英特尔还有一些与 IACA 相同的工具,可在 their experimental/what-if code site 的性能调整部分下获得。 ,例如 PTU,它是(或曾经是)VTune 的实验性演变,据我所知,它是免费的。
在深入研究之前阅读英特尔优化手册也是一个好主意。
编辑:正如 Ben 所指出的,对于较旧的处理器,计时可能不正确,但使用 Agner Fog's Optimization manuals 可以很容易地弥补这一点。 ,其中还包含许多其他 gem 。
关于c++ - 如何在汇编级别分析 C++ 函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7628476/
Android 项目中最低(最低 sdk)和最高(目标 sdk)级别是否有任何影响。这些东西是否会影响项目的可靠性和效率。 最佳答案 没有影响,如果您以 SDK 级别 8 为目标,那么您的应用将以 9
我将现有的 android 项目升级到 API 级别 31。我使用 Java 作为语言。我改变了 build.gradle compileSdkVersion 31 defaultConfig {
我正在使用 ionic 3 创建一个 android 应用程序,当我尝试上传到 playstore 时,我收到一个错误,提示我的应用程序以 api 25 为目标,当我检查我的 project.prop
我刚刚尝试将应用程序的目标和编译 API 级别更新为 29 (Android 10),并注意到我无法再编译,因为 LocationManager.addNmeaListener 只接受 OnNmeaM
我的代码没有在 Kitkat 上显示工具栏。 这是我的两个 Android 版本的屏幕截图。 Kitkat 版本: Lollipop 版: 这背后的原因可能是什么。 list 文件
我正在构建面向 API 级别 8 的 AccessabilityService,但我想使用 API 级别 18 中引入的功能 (getViewIdResourceName())。这应该可以通过使用 A
当我想在我的电脑上创建一个 android 虚拟机时,有两个选项可以选择目标设备。它们都用于相同的 API 级别。那么我应该选择哪一个呢?它们之间有什么区别? 最佳答案 一个是基本的 Android,
当我选择 tagret 作为 Android 4.2.2(API 级别 17)时,模拟器需要很长时间来加载和启动。 所以我研究它并通过使用 找到了解决方案Intel Atom(x86) 而不是 ARM
我有一个使用 Android Studio 创建的 Android 项目。我在项目中添加了一些第三方依赖项,但是当我尝试在 Android Studio 中编译时,我遇到了以下错误: Error:Ex
如上所述,如何使用 API 8 获取移动设备网络接口(interface)地址? 最佳答案 NetworkInterface.getInetAddresses() 在 API8 中可用。 关于andr
我想显示 Snackbar并使用图像而不是文本进行操作。 我使用以下代码: val imageSpan = ImageSpan(this, R.drawable.star) val b
我有一个用 python 编写的简单命令行程序。程序使用按以下方式配置的日志记录模块将日志记录到屏幕: logging.basicConfig(level=logging.INFO, format='
使用下面的代码,实现游戏状态以控制关卡的最简单和最简单的方法是什么?如果我想从标题画面开始,然后加载一个关卡,并在完成后进入下一个关卡?如果有人能解释处理这个问题的最简单方法,那就太好了! impor
我想创建一个可以找到嵌套树结构深度的属性。下面的静态通过递归找出深度/级别。但是是否可以将此函数作为同一个类中的属性而不是静态方法? public static int GetDepth(MenuGr
var myArray = [{ title: "Title 1", children: [{ title: "Title 1.1", children: [{
通过下面的代码,实现游戏状态来控制关卡的最简单、最容易的方法是什么?如果我想从标题屏幕开始,然后加载一个关卡,并在完成后进入下一个关卡?如果有人可以解释处理这个问题的最简单方法,那就太好了! impo
我有一个树结构,其中每个节点基本上可以有无限个子节点,它正在为博客的评论建模。 根据特定评论的 ID,我试图找出该评论在树中的深度/级别。 我正在关注 this guide that explains
考虑任何给定的唯一整数的数组,例如[1,3,2,4,6,5] 如何确定“排序度”的级别,范围从 0.0 到 1.0 ? 最佳答案 一种方法是评估必须移动以使其排序的项目数量,然后将其除以项目总数。 作
我如何定义一个模板类,它提供一个整数常量,表示作为输入模板参数提供的(指针)类型的“深度”?例如,如果类名为 Depth,则以下内容为真: Depth::value == 3 Depth::value
我的场景是:文件接收器应该包含所有内容。另一个接收器应包含信息消息,但需要注意的是 Microsoft.* 消息很烦人,因此这些消息应仅限于警告。两个sink怎么单独配置?我尝试的第一件事是: str
我是一名优秀的程序员,十分优秀!