- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the help center寻求指导。
9年前关闭。
我正在使用 MPI,我想测量通信成本,以便我可以将它们与“处理”成本进行比较,例如,我需要多少时间将列表分散到 n 个进程中,然后将其与多少时间进行比较是时候我需要对其进行排序了。
有谁知道任何衡量这种沟通成本的工具? (例如散点图)
是否有任何东西可以测量 MPI 通信成本,例如 PAPI 来分析代码性能?
提前致谢!
最佳答案
是的,有很多这样的工具。 MPI 定义了一个工具接口(interface),允许其他库在您的 MPI 函数调用中插入自己,并执行计数、计时等。
一个非常小的 MPI 分析工具是 mpiP - 它提供了代码中 MPI 事件的非常简短的摘要。
IPM库相当容易构建,并为您提供大量 MPI 计数和时间,并因此提供了一个不错的 HTML 文件。你提到了PAPI;如果可用,IPM 还将集成 PAPI 计数器。我们在我们的中心经常使用它,我认为这会做你喜欢的。如果您使用 MPI 的动态库构建程序,您甚至不需要重新编译即可使用它(mpiP 具有相同的属性)。
Jumpshot ,它与 MPICH2 一起提供,但可以使用任何 MPI 构建,实际上在时间线上显示了每个 MPI 操作花费了多长时间。
OpenSpeedshop提供非常详细的代码性能测量,特别突出“昂贵”的行;它还具有 MPI 跟踪模式,可通过代码行识别 MPI 时间。安装可能很棘手。
在频谱的商业部分有 Vampir来自德累斯顿工业大学和英特尔跟踪分析器和收集器 (ITAC)。 Vampir 使用开源 VampirTrace 库收集源级、MPI 和 OpenMP 跟踪,该库还与 PAPI 集成以提供详细的事件和计数器跟踪。 VampirTrace 的踪迹采用 Open Trace 格式,除了 Vampir 之外,其他各种工具都可以读取它。
ITAC 是 Intel Cluster Studio XE 的一部分.它主要设计用于与英特尔 MPI 一起使用,并与 Vampir 共享相同的祖先代码,提供或多或少相同的功能。它的一个不错的功能是包含的自动运行时 MPI 正确性检查器。
Allinea MAP是来自 Allinea 的 MPI 分析器,它通过集成的源浏览器提供性能分析,该浏览器在源代码的各个行旁边显示通信/计算成本。它还显示了性能信息的高级图表,包括内存、CPU 指令和通信。
但是还有其他更高级别的工具,它们不仅提供报告,而且实际上提供建议。 TACC 的 perfexpert 是一个基于命令行的工具,它进行大量测量并提供一些性能调整建议。 Scalasca Jülich 使用大量源代码级工具重新编译您的代码,并且可以指出负载不平衡,特别是昂贵的 MPI 集合等。它还可以与 Vampir 集成以进行详细的跟踪分析。
关于performance - 衡量 MPI 通信成本的工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10607750/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!