performance - 从 ghci 和 shell 运行的已编译加速代码的性能差异-6ren

performance - 从 ghci 和 shell 运行的已编译加速代码的性能差异

转载作者：行者123 更新时间：2023-12-03 08:42:43

问题

您好，我正在使用加速库来创建一个应用程序，允许用户交互调用处理图像的函数，这就是我使用 ghc api 基于和扩展 ghci 的原因。

问题是，当从 shell 运行编译后的可执行文件时，计算在 100 毫秒(略小于 80 毫秒)内完成，而在 ghci 中运行相同的编译代码需要超过 100 毫秒(平均多于 140 毫秒)才能完成。

资源

示例代码+执行日志:
https://gist.github.com/zgredzik/15a437c87d3d8d03b8fc

说明

首先:测试是在编译 CUDA 内核之后运行的(编译本身增加了 2 秒，但事实并非如此)。

从 shell 运行编译后的可执行文件时，计算在 10 毫秒内完成。 ( shell first run 和 second shell run 传递了不同的参数以确保数据没有被缓存在任何地方)。

当尝试从 ghci 运行相同的代码并摆弄输入数据时，计算需要超过 100 毫秒。我知道解释代码比编译代码慢，但我在 ghci session 中加载相同的编译代码并调用相同的顶级绑定(bind) ( packedFunction )。我已明确键入它以确保它是专用的(与使用 SPECIALIZED pragma 的结果相同)。

但是，如果我运行 main，计算确实需要不到 10 毫秒。 ghci 中的函数(即使在连续调用之间使用 :set args 更改输入数据)。

编译Main.hs与 ghc -o main Main.hs -O2 -dynamic -threaded
我想知道开销来自哪里。有人对为什么会发生这种情况有任何建议吗？

remdezx 发布的示例的简化版本:

{-# LANGUAGE OverloadedStrings #-}

module Main where

import Data.Array.Accelerate as A
import Data.Array.Accelerate.CUDA as C
import Data.Time.Clock       (diffUTCTime, getCurrentTime)

main :: IO ()
main = do
    start <- getCurrentTime
    print $ C.run $ A.maximum $ A.map (+1) $ A.use (fromList (Z:.1000000) [1..1000000] :: Vector Double)
    end   <- getCurrentTime
    print $ diffUTCTime end start

当我编译并执行它需要 0,09s 完成。

$ ghc -O2 Main.hs -o main -threaded
[1 of 1] Compiling Main             ( Main.hs, Main.o )
Linking main ...
$ ./main
Array (Z) [1000001.0]
0.092906s

但是当我预编译它并在解释器中运行时，它需要 0,25s

$ ghc -O2 Main.hs -c -dynamic
$ ghci Main
ghci> main
Array (Z) [1000001.0]
0.258224s

最佳答案

我调查了accelerate和 accelerate-cuda并放置一些调试代码来测量 ghci 和编译后的优化版本中的时间。

结果如下，您可以看到堆栈跟踪和执行时间。

ghci 运行

$ ghc -O2 -dynamic -c -threaded Main.hs && ghci 
GHCi, version 7.8.3: http://www.haskell.org/ghc/  :? for help
…
Loading package ghc-prim ... linking ... done.
Loading package integer-gmp ... linking ... done.
Loading package base ... linking ... done.
Ok, modules loaded: Main.
Prelude Main> Loading package transformers-0.3.0.0 ... linking ... done.
…
Loading package array-0.5.0.0 ... linking ... done.
(...)
Loading package accelerate-cuda-0.15.0.0 ... linking ... done.
>>>>> run
>>>>> runAsyncIn.execute
>>>>>  runAsyncIn.seq ctx
<<<<<  runAsyncIn.seq ctx: 4.1609e-2 CPU  0.041493s TOTAL
>>>>>  runAsyncIn.seq a
<<<<<  runAsyncIn.seq a: 1.0e-6 CPU  0.000001s TOTAL
>>>>>  runAsyncIn.seq acc
>>>>>   convertAccWith True
<<<<<   convertAccWith: 0.0 CPU  0.000017s TOTAL
<<<<<  runAsyncIn.seq acc: 2.68e-4 CPU  0.000219s TOTAL
>>>>>  evalCUDA
>>>>>   push
<<<<<   push: 0.0 CPU  0.000002s TOTAL
>>>>>   evalStateT
>>>>>    runAsyncIn.compileAcc
>>>>>     compileOpenAcc
>>>>>      compileOpenAcc.traveuseAcc.Alet
>>>>>      compileOpenAcc.traveuseAcc.Use
>>>>>       compileOpenAcc.traveuseAcc.use3
>>>>>       compileOpenAcc.traveuseAcc.use1
<<<<<       compileOpenAcc.traveuseAcc.use1: 0.0 CPU  0.000001s TOTAL
>>>>>       compileOpenAcc.traveuseAcc.use2
>>>>>        compileOpenAcc.traveuseAcc.seq arr
<<<<<        compileOpenAcc.traveuseAcc.seq arr: 0.105716 CPU  0.105501s TOTAL
>>>>>        useArrayAsync
<<<<<        useArrayAsync: 1.234e-3 CPU  0.001505s TOTAL
<<<<<       compileOpenAcc.traveuseAcc.use2: 0.108012 CPU  0.108015s TOTAL
<<<<<       compileOpenAcc.traveuseAcc.use3: 0.108539 CPU  0.108663s TOTAL
<<<<<      compileOpenAcc.traveuseAcc.Use: 0.109375 CPU  0.109005s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Fold1
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 0.0 CPU  0.000001s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 0.0 CPU  0s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 0.0 CPU  0.000001s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 0.0 CPU  0s TOTAL
<<<<<      compileOpenAcc.traveuseAcc.Fold1: 2.059e-3 CPU  0.002384s TOTAL
<<<<<      compileOpenAcc.traveuseAcc.Alet: 0.111434 CPU  0.112034s TOTAL
<<<<<     compileOpenAcc: 0.11197 CPU  0.112615s TOTAL
<<<<<    runAsyncIn.compileAcc: 0.11197 CPU  0.112833s TOTAL
>>>>>    runAsyncIn.dumpStats
<<<<<    runAsyncIn.dumpStats: 2.0e-6 CPU  0.000001s TOTAL
>>>>>    runAsyncIn.executeAcc
>>>>>     executeAcc
<<<<<     executeAcc: 8.96e-4 CPU  0.00049s TOTAL
<<<<<    runAsyncIn.executeAcc: 9.36e-4 CPU  0.0007s TOTAL
>>>>>    runAsyncIn.collect
<<<<<    runAsyncIn.collect: 0.0 CPU  0.000027s TOTAL
<<<<<   evalStateT: 0.114156 CPU  0.115327s TOTAL
>>>>>   pop
<<<<<   pop: 0.0 CPU  0.000002s TOTAL
>>>>>   performGC
<<<<<   performGC: 5.7246e-2 CPU  0.057814s TOTAL
<<<<<  evalCUDA: 0.17295 CPU  0.173943s TOTAL
<<<<< runAsyncIn.execute: 0.215475 CPU  0.216563s TOTAL
<<<<< run: 0.215523 CPU  0.216771s TOTAL
Array (Z) [1000001.0]
0.217148s
Prelude Main> Leaving GHCi.

编译后的代码运行

$ ghc -O2 -threaded Main.hs && ./Main
[1 of 1] Compiling Main             ( Main.hs, Main.o )
Linking Main ...
>>>>> run
>>>>> runAsyncIn.execute
>>>>>  runAsyncIn.seq ctx
<<<<<  runAsyncIn.seq ctx: 4.0639e-2 CPU  0.041498s TOTAL
>>>>>  runAsyncIn.seq a
<<<<<  runAsyncIn.seq a: 1.0e-6 CPU  0.000001s TOTAL
>>>>>  runAsyncIn.seq acc
>>>>>   convertAccWith True
<<<<<   convertAccWith: 1.2e-5 CPU  0.000005s TOTAL
<<<<<  runAsyncIn.seq acc: 1.15e-4 CPU  0.000061s TOTAL
>>>>>  evalCUDA
>>>>>   push
<<<<<   push: 2.0e-6 CPU  0.000002s TOTAL
>>>>>   evalStateT
>>>>>    runAsyncIn.compileAcc
>>>>>     compileOpenAcc
>>>>>      compileOpenAcc.traveuseAcc.Alet
>>>>>      compileOpenAcc.traveuseAcc.Use
>>>>>       compileOpenAcc.traveuseAcc.use3
>>>>>       compileOpenAcc.traveuseAcc.use1
<<<<<       compileOpenAcc.traveuseAcc.use1: 0.0 CPU  0.000001s TOTAL
>>>>>       compileOpenAcc.traveuseAcc.use2
>>>>>        compileOpenAcc.traveuseAcc.seq arr
<<<<<        compileOpenAcc.traveuseAcc.seq arr: 3.6651e-2 CPU  0.03712s TOTAL
>>>>>        useArrayAsync
<<<<<        useArrayAsync: 1.427e-3 CPU  0.001427s TOTAL
<<<<<       compileOpenAcc.traveuseAcc.use2: 3.8776e-2 CPU  0.039152s TOTAL
<<<<<       compileOpenAcc.traveuseAcc.use3: 3.8794e-2 CPU  0.039207s TOTAL
<<<<<      compileOpenAcc.traveuseAcc.Use: 3.8808e-2 CPU  0.03923s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Fold1
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 2.0e-6 CPU  0.000001s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 2.0e-6 CPU  0.000001s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 0.0 CPU  0.000001s TOTAL
>>>>>      compileOpenAcc.traveuseAcc.Avar
<<<<<      compileOpenAcc.traveuseAcc.Avar: 0.0 CPU  0.000001s TOTAL
<<<<<      compileOpenAcc.traveuseAcc.Fold1: 1.342e-3 CPU  0.001284s TOTAL
<<<<<      compileOpenAcc.traveuseAcc.Alet: 4.0197e-2 CPU  0.040578s TOTAL
<<<<<     compileOpenAcc: 4.0248e-2 CPU  0.040895s TOTAL
<<<<<    runAsyncIn.compileAcc: 4.0834e-2 CPU  0.04103s TOTAL
>>>>>    runAsyncIn.dumpStats
<<<<<    runAsyncIn.dumpStats: 0.0 CPU  0s TOTAL
>>>>>    runAsyncIn.executeAcc
>>>>>     executeAcc
<<<<<     executeAcc: 2.87e-4 CPU  0.000403s TOTAL
<<<<<    runAsyncIn.executeAcc: 2.87e-4 CPU  0.000488s TOTAL
>>>>>    runAsyncIn.collect
<<<<<    runAsyncIn.collect: 9.2e-5 CPU  0.000049s TOTAL
<<<<<   evalStateT: 4.1213e-2 CPU  0.041739s TOTAL
>>>>>   pop
<<<<<   pop: 0.0 CPU  0.000002s TOTAL
>>>>>   performGC
<<<<<   performGC: 9.41e-4 CPU  0.000861s TOTAL
<<<<<  evalCUDA: 4.3308e-2 CPU  0.042893s TOTAL
<<<<< runAsyncIn.execute: 8.5154e-2 CPU  0.084815s TOTAL
<<<<< run: 8.5372e-2 CPU  0.085035s TOTAL
Array (Z) [1000001.0]
0.085169s

我们可以看到有两个主要问题: fromList (Z:.1000000) [1..1000000] :: Vector Double 的评估需要 69 毫秒 在 ghci (106ms - 37ms) 和 performGC 下额外接听 的电话57 毫秒 额外(58 毫秒 - 1 毫秒)。这两个总结了在 ghci 下执行和在编译版本中执行之间的差异。

我想，在编译程序中，RTS 管理内存的方式与 ghci 不同，因此分配和 gc 可以更快。我们也可以只测试这部分评估下面的代码(它根本不需要 CUDA):

import Data.Array.Accelerate.Array.Sugar
import Data.Time.Clock                   (diffUTCTime, getCurrentTime)
import System.Mem                        (performGC)


main :: IO ()
main = do
    measure $ seq (fromList (Z:.1000000) [1..1000000] :: Vector Double) $ return ()
    measure $ performGC

measure action = do
    start <- getCurrentTime
    action
    end   <- getCurrentTime
    print $ diffUTCTime end start

结果:

评估向量需要 0.121653s 在 ghci 和 下0.035162s 在
编译版本

performGC 占用 0.044876s 在 ghci 和
0.00031s 在编译版本中。

这可能是另一个问题，但也许有人知道: 我们可以以某种方式调整垃圾收集器以在 ghci 下更快地工作吗？

关于performance - 从 ghci 和 shell 运行的已编译加速代码的性能差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27541609/

文章推荐： parsing - Tcl中的复数算术？

文章推荐：具有关系层次结构的 Neo4j Cypher 查询

文章推荐： api - 如何获得我在去年贡献的所有 GitHub 项目的列表？

java - 用于构建项目的库？我可以使用 C++ 编译 C++，或者使用 python 编译 java，或者使用 C++ 编译 java，等等？
是否有任何库或框架旨在促进从另一种成熟的编程语言中构建项目？在 C++、java 等编程语言中指定逻辑、集合和复杂规则非常容易，但在 Makefile 中完成这些事情似乎是一场艰苦的战斗。我还没有深
c++ - 代码可以用 clang 编译，但不能用 gcc 编译
我有这段代码可以用 clang 编译得很好(即使使用 -Weverything)，但是 gcc 会发出错误。 #include #include #include using namespace
c++ - C 头文件不能用 C 编译，但可以用 C++ 编译
我有以下 block 头文件 BKE_mesh.h: /* Connectivity data */ typedef struct IndexNode { struct IndexNode *
c++ - 如果使用 Makefile 编译，代码可以正常工作，如果使用 XCode 编译，代码会崩溃
我在我的一个项目中遇到了一个奇怪的问题。我的代码库依赖于一个外部库，其中包含一个名为 Dataset 的类. Dataset类私有(private)继承自 std::vector (其中 Sample
c++ - C/C++ 项目可以使用 Xcode 编译，但不能使用 gcc/g++ 编译
当使用 gcc、g++ 或 make 在终端中编译一个小型 C 或 C++ 项目时，我收到以下错误: /tmp/ccG1caGi.o: In function `main': main.c:(.tex
emacs - 如何在 Windows 上为 Emacs 23.1.50 编译 CEDET 1.0pre7 编译？
我正在尝试从 CVS 为 Windows 上的 Emacs 23.1.50 编译 CEDET，但在“第 6 步:打开 EDE...”时出现错误:“defvar:作为变量的符号值是无效的:cedet-m
c - fflush(stdin) 不能在 cygwin 中用 gcc 编译，但可以用 visual studio 2010 编译
我正在(重新)学习编程，我从 C 开始。我的 IDE(如果我可以这么说)是 Windows7 上的 cygwin(32 位)和 Visual-Studio 2010。我总是编译我用 gcc (cygw
C++ GCC 为什么这段 sfinae 代码可以用 GCC 4.7 编译，但不能用 4.8 编译？
我喜欢在模板类中使用本地类来执行类似“static if”的构造。但是我遇到了 gcc 4.8 不想编译我的代码的问题。但是 4.7 可以。这个例子: #include #include #in
Java - 使用 java 1.4 编译 src/main/java 并使用 1.5 编译 src/test/java
我有一个项目，必须仅使用 java 1.4 进行编译。但我计划使用mockito 编写一些单元测试。我想要一种在 pom 中指定的方法，以便 src/main/java 使用 jdk 1.4 编译，但
PHP 编译
我想了解 PHP 编译过程是如何工作的。假设我有一个名为funcs.php 的文件并且这个文件有三个函数，如果我include 或require 它，所有的在文件加载期间编译三个函数？或者源代码会被
gcc/g++编译
编译工具链我们写程序的时候用的都是集成开发环境 (IDE: Integrated Development Environment)，集成开发环境可以极大地方便我们程序员编写程序，但是配置起来
scala - 编译 for 循环时出现奇怪的错误
当我编写一些 Scala 代码时，在尝试编译代码时收到一条奇怪的错误消息。我将代码分解为一个更简单的代码(从语义的角度来看这完全没有意义，但仍然显示了错误)。 scala> :paste // Ent
带注释的 SASS 编译
我正在编译一个 SCSS 文件，它似乎删除了我的评论。我可以使用什么命令来保留所有评论？ >SASS input.scss output.css 我在 SCSS 中看到两种类型的注释。 // Comm
编译 C 结构
这是我的代码: #include typedef struct { const char *description; float value; int age; } swag
Grails GSP 编译？
当您编译 grails war 时，我知道 .groovy 代码被编译为字节码类文件，但我不明白容器(例如 tomcat)如何在请求 GSP 时知道如何编译它们。容器了解 GSP 吗？安装在服务器上的
编译 : undefined reference to
我正在努力将多个文件编译成一个通用程序。我收到一个错误: undefined reference to 'pi' 这是我的代码和 Makefile 的框架。我做错了什么？谢谢! 文件:calcPi.c
编译 LD_PRELOAD 包装器的冲突类型
我尝试使用 LD_PRELOAD 来 Hook sprintf function ，所以我将打印到缓冲区的结果: #define _GNU_SOURCE #include #include int
javascript - CoffeeScript 编译
我正在寻找最简单的方法来自动将 CoffeeScript 重新编译为 JS。阅读documentation但仍然很难得到我想要的东西。我需要它来监视文件夹 src/ 中的任何 *.coffee 文
javascript - CoffeeScript 编译
我想使用定制waveformjs 。我发现this on SO但是，我不知道如何编译/安装波形来开始。我从 GitHub 克隆它并进行了更改，但是我不知道如何将其转换为 .js 文件。最佳答案为了
java - 编译/捕获异常
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

performance - 从 ghci 和 shell 运行的已编译加速代码的性能差异