optimization - 如何摆脱核心中的 `let`？-6ren

optimization - 如何摆脱核心中的 `let`？

转载作者：行者123 更新时间：2023-12-03 15:33:54

我有一个在内部循环中经常调用的函数。它看起来像这样:

import qualified Data.Vector.Storable as SV

newtype Timedelta = Timedelta Double

cklsLogDens :: SV.Vector Double -> Timedelta -> Double -> Double -> Double
cklsLogDens p (Timedelta dt) x0 x1 = if si <= 0 then -1e50 else c - 0.5*((x1-mu)/sd)^2 
  where
    al  = p `SV.unsafeIndex` 0
    be  = p `SV.unsafeIndex` 1
    si  = p `SV.unsafeIndex` 2
    xi  = p `SV.unsafeIndex` 3
    sdt = sqrt dt
    mu  = x0 + (al + be*x0)*dt
    sd  = si * (x0 ** xi) * sdt
    c   = sd `seq` -0.5 * log (2*pi*sd^2)

(使用 Data.Vector.Storable 是因为该函数稍后需要处理来自 C 函数的数据)

GHC 已经很好地优化了这一点(据我所知，所有变量和操作都是原语)，但是看看核心，有一个 let那仍然在(什么是)函数体的内部。我已阅读 here (以及我不记得的其他地方)“让”分配惰性重击，因此可能不利于紧密循环中的性能。我可以摆脱它吗？如果一切可能，我宁愿不将我的函数转换为 20 个案例陈述，但如果这要求太多，我会接受。

这里是核心:

$wloop_s4Li [Occ=LoopBreaker]
  :: GHC.Prim.Double#
     -> GHC.Prim.Int# -> GHC.Prim.Int# -> GHC.Prim.Double#
[LclId, Arity=3, Str=DmdType LLL]
$wloop_s4Li =
  \ (ww_X4OR :: GHC.Prim.Double#)
    (ww1_X4OW :: GHC.Prim.Int#)
    (ww2_X4P1 :: GHC.Prim.Int#) ->
    case GHC.Prim.<# ww1_X4OW ww2_X4P1 of _ {
      GHC.Types.False -> ww_X4OR;
      GHC.Types.True ->
        case GHC.Prim.<=## x_a4tg 0.0 of _ {
          GHC.Types.False ->
            case GHC.Prim.indexDoubleArray#
                   rb2_a4rT (GHC.Prim.+# rb_a4rR (GHC.Prim.-# ww1_X4OW 1))
            of wild17_X4xM { __DEFAULT ->

            let {
      ----  ^^^^ want to get rid off this! 
      ----
      ----
              ipv1_X2S8 [Dmd=Just L] :: GHC.Prim.Double#
              [LclId, Str=DmdType]
              ipv1_X2S8 =
                GHC.Prim.*##
                  (GHC.Prim.*## x_a4tg (GHC.Prim.**## wild17_X4xM y_a3BN))
                  (GHC.Prim.sqrtDouble# tpl1_B3) } in
            case GHC.Prim.logDouble#
                   (GHC.Prim.*##
                      6.283185307179586 (GHC.Prim.*## ipv1_X2S8 ipv1_X2S8))
            of wild18_X3Gn { __DEFAULT ->
            case GHC.Prim.indexDoubleArray#
                   rb2_a4rT (GHC.Prim.+# rb_a4rR ww1_X4OW)
            of wild19_X4AY { __DEFAULT ->
            case GHC.Prim./##
                   (GHC.Prim.-##
                      wild19_X4AY
                      (GHC.Prim.+##
                         wild17_X4xM
                         (GHC.Prim.*##
                            (GHC.Prim.+##
                               x1_X3GA (GHC.Prim.*## x2_X3cb wild17_X4xM))
                            tpl1_B3)))
                   ipv1_X2S8
            of wild20_X3x8 { __DEFAULT ->
            $wloop_s4Li
              (GHC.Prim.+##
                 ww_X4OR
                 (GHC.Prim.-##
                    (GHC.Prim.negateDouble# (GHC.Prim.*## 0.5 wild18_X3Gn))
                    (GHC.Prim.*##
                       0.5 (GHC.Prim.*## wild20_X3x8 wild20_X3x8))))
              (GHC.Prim.+# ww1_X4OW 1)
              ww2_X4P1
            }
            }
            }
            };
          GHC.Types.True ->
            $wloop_s4Li
              (GHC.Prim.+## ww_X4OR -1.0e50)
              (GHC.Prim.+# ww1_X4OW 1)
              ww2_X4P1
        }
    }; }

(是的，当然，既然你必须问，我在过早优化上花费了太多时间......)

这是 NOINLINE 的当前版本

import qualified Data.Vector.Storable as SV

newtype Timedelta = Timedelta Double

cklsLogDens :: SV.Vector Double -> Timedelta -> Double -> Double -> Double
{-# NOINLINE cklsLogDens #-}
cklsLogDens p (Timedelta dt) x0 x1 = si `seq` (if si <= 0 then -1e50 else (sd `seq` (c - 0.5*((x1-mu)/sd)^2)))
  where
    al  = p `SV.unsafeIndex` 0
    be  = p `SV.unsafeIndex` 1
    si  = p `SV.unsafeIndex` 2
    xi  = p `SV.unsafeIndex` 3
    sdt = sqrt dt
    mu  = x0 + (al + be*x0)*dt
    sd  = si * (x0 ** xi) * sdt
    c   = sd `seq` (-0.5 * log (2*pi*sd^2))

main = putStrLn . show $ cklsLogDens SV.empty (Timedelta 0.1) 0.1 0.15

对应的核心片段:

Main.cklsLogDens [InlPrag=NOINLINE]
  :: Data.Vector.Storable.Vector GHC.Types.Double
     -> Main.Timedelta
     -> GHC.Types.Double
     -> GHC.Types.Double
     -> GHC.Types.Double
[GblId, Arity=4, Caf=NoCafRefs, Str=DmdType U(ALL)LLL]
Main.cklsLogDens =
  \ (p_atw :: Data.Vector.Storable.Vector GHC.Types.Double)
    (ds_dVa :: Main.Timedelta)
    (x0_aty :: GHC.Types.Double)
    (x1_atz :: GHC.Types.Double) ->
    case p_atw
    of _ { Data.Vector.Storable.Vector rb_a2ml rb1_a2mm rb2_a2mn ->
    case GHC.Prim.readDoubleOffAddr#
           @ GHC.Prim.RealWorld rb1_a2mm 2 GHC.Prim.realWorld#
    of _ { (# s2_a2nH, x_a2nI #) ->
    case GHC.Prim.touch#
           @ GHC.ForeignPtr.ForeignPtrContents rb2_a2mn s2_a2nH
    of _ { __DEFAULT ->
    case GHC.Prim.<=## x_a2nI 0.0 of _ {
      GHC.Types.False ->
        case x0_aty of _ { GHC.Types.D# x2_a13d ->
        case GHC.Prim.readDoubleOffAddr#
               @ GHC.Prim.RealWorld rb1_a2mm 3 GHC.Prim.realWorld#
        of _ { (# s1_X2oB, x3_X2oD #) ->
        case GHC.Prim.touch#
               @ GHC.ForeignPtr.ForeignPtrContents rb2_a2mn s1_X2oB
        of _ { __DEFAULT ->
        case ds_dVa
             `cast` (Main.NTCo:Timedelta :: Main.Timedelta ~# GHC.Types.Double)
        of _ { GHC.Types.D# x4_a13m ->
        let {
   --- ^^^^ want to get rid of this!
   ---
          ipv_sYP [Dmd=Just L] :: GHC.Prim.Double#
          [LclId, Str=DmdType]
          ipv_sYP =
            GHC.Prim.*##
              (GHC.Prim.*## x_a2nI (GHC.Prim.**## x2_a13d x3_X2oD))
              (GHC.Prim.sqrtDouble# x4_a13m) } in
        case x1_atz of _ { GHC.Types.D# x5_X14E ->
        case GHC.Prim.readDoubleOffAddr#
               @ GHC.Prim.RealWorld rb1_a2mm 0 GHC.Prim.realWorld#
        of _ { (# s3_X2p2, x6_X2p4 #) ->
        case GHC.Prim.touch#
               @ GHC.ForeignPtr.ForeignPtrContents rb2_a2mn s3_X2p2
        of _ { __DEFAULT ->
        case GHC.Prim.readDoubleOffAddr#
               @ GHC.Prim.RealWorld rb1_a2mm 1 GHC.Prim.realWorld#
        of _ { (# s4_X2pi, x7_X2pk #) ->
        case GHC.Prim.touch#
               @ GHC.ForeignPtr.ForeignPtrContents rb2_a2mn s4_X2pi
        of _ { __DEFAULT ->
        case GHC.Prim.logDouble#
               (GHC.Prim.*## 6.283185307179586 (GHC.Prim.*## ipv_sYP ipv_sYP))
        of wild9_a13D { __DEFAULT ->
        case GHC.Prim./##
               (GHC.Prim.-##
                  x5_X14E
                  (GHC.Prim.+##
                     x2_a13d
                     (GHC.Prim.*##
                        (GHC.Prim.+## x6_X2p4 (GHC.Prim.*## x7_X2pk x2_a13d)) x4_a13m)))
               ipv_sYP
        of wild10_a13O { __DEFAULT ->
        GHC.Types.D#
          (GHC.Prim.-##
             (GHC.Prim.negateDouble# (GHC.Prim.*## 0.5 wild9_a13D))
             (GHC.Prim.*## 0.5 (GHC.Prim.*## wild10_a13O wild10_a13O)))
        }
        }
        }
        }
        }
        }
        }
        }
        }
        }
        };
      GHC.Types.True -> lvl_r2v7
    }
    }
    }
    }

最佳答案

丹尼尔是对的 - let事实上，in question 并没有分配 thunk。这实际上是不可能的，因为像 Double# 这样的原始类型没有堆表示。这些let s 实际上转换为 case在所谓的核心准备阶段转换为 STG 之前的表达式(这是“let = 分配”规则实际成立的地方)。请参阅 CorePrep.lhs 中有关此主题的评论.

这是准备之前的核心( -ddump-simpl ):

    let {
      ipv_sPL [Dmd=Just L] :: GHC.Prim.Double#
      ipv_sPL =
        GHC.Prim.*##
          (GHC.Prim.*## x_a160 (GHC.Prim.**## x1_a11G x2_X17h))
          (GHC.Prim.sqrtDouble# x3_a11P) } in [...]

这是之后( -ddump-prep):

    case GHC.Prim.sqrtDouble# x3_s1aU of sat_s1cB { __DEFAULT ->
    case GHC.Prim.**## x1_s1aQ x2_s1aR of sat_s1cC { __DEFAULT ->
    case GHC.Prim.*## x_s1aC sat_s1cC of sat_s1cD { __DEFAULT ->
    case GHC.Prim.*## sat_s1cD sat_s1cB of ipv_s1aW [Dmd=Just L] { __DEFAULT ->

所以实际上没有任何堆分配。

另一方面，请注意，核心准备还将每个应用程序显式包装到 let 中。或 case语句，产生非常冗长的代码。这就是为什么 -ddump-simpl可能被认为是查看 Core 的默认设置，尽管它的性能模型实际上稍微令人惊讶。

关于optimization - 如何摆脱核心中的 `let`？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14086673/

文章推荐： azure - 升级到 asp.net core rc2 后发布到 Azure 应用服务崩溃

文章推荐： exception - Crashlytics 是否管理离线崩溃。

文章推荐： optimization - LLVM 优化级别的含义

文章推荐： ruby-on-rails - 了解Ruby on Rails的渲染时间

c - 为什么 4 线程程序在 1 核 VM 上比在 4 核 VM 上运行得更快？
我使用 4 核 i7 CPU(8 个逻辑核)，debian linux 虚拟机也是 debian linux 程序使用 gcc 编译，没有进行特殊优化(默认编译设置) 我循环了该程序 1000 次。当
parallel-processing - 大量线程消耗对 ARM(4 核 A72)与 x86(2 核 i5)的影响
我有一个实时 linux 桌面应用程序(用 C 语言编写)，我们正在移植到 ARM(4 核 Cortex v8-A72 CPU)。在架构上，它结合了高优先级显式 pthread(其中 6 个)和一对
linux - 如何创建 Solr 6 核？
我已经在 Digital Ocean ubuntu 实例上安装了 Solr 6: install_solr_service.sh solr-6.1.0.tgz 并验证 Solr 正在运行。但是，我无法
c++ - 如何识别阻碍我的程序在 32 核 CPU 上良好扩展的瓶颈？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this qu
parallel-processing - 英特尔刚刚推出了一款新的 48 核 CPU。向多核迁移对我们程序员意味着什么？
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 6年前关闭。 Improve this questi
image-processing - 带有卡方核的线性 svm 与 rbf 核
我有一个大约 2000 维的特征向量。都是直方图特征。我不知道在我的情况下哪个有效:将 SVM 与 RBF 核或卡方核应用？你能建议我在我的情况下有效的内核吗？最佳答案一般来说，卡方和交集内核
macos - 关闭 6 核 Intel Xeon 中的超线程
我们有一台 12 核 MacPro 来进行一些蒙特卡罗计算。其 Intel Xeon 处理器启用了超线程 (HT)，因此实际上应该有 24 个进程并行运行才能充分利用它们。然而，我们的计算在 12x1
r - 如何在 2 核 MacBook Pro 上运行多核？
所以这段代码: library(plyr) library(doMC) registerDoMC(cores=2) x=1:100 llply(x, some_function, .parallel=
performance - 在 32 核/10Gbit 主机上调优 Netty
Netty Server 流到 Netty 客户端(点对点，1 对 1): 好的案例:Server和Client都是12 cores , 1Gbit NIC => 以每秒 300K 200 字节消息
c# - 4 核 PC 上的 c# 程序中的线程激活顺序
我对以下 C# 代码的线程激活顺序感到困惑。它创建了 10 个线程，随机启动它们，每个线程模拟执行一个耗时的工作 10 次，如果你检查调试输出，线程似乎不是随机选择的，请看下面的输出示例，注意线程 #
machine-learning - 在扩展特征空间中，核 SVM 与线性 SVM 相比有哪些缺点？
这是我考试时提出的问题。我给出了以下答案，我的得分是0分。教授甚至不同意给予任何部分的认可，也没有告诉我我的答案有什么问题。谁能帮我找出我的答案有什么问题吗？这是我在考试中给出的答案。缺点是:1)
c++ - 在 24 核 CPU 中增加线程数超过 4 会导致性能下降
我有一个 Intel Xeon E5-2620，它有 24 个 CPU。我写了一个应用程序，它创建 24 个线程来使用 openssl 解密 AES。当我在 100 万数据解密时将线程数从 1 增加到
ios - quartz 核 : Changing whole layer pixels color
我正在开发一个在图层上绘画的应用程序。这是一个示例代码，展示了我的绘画方式。 UIImageView * currentLayer = // getting the right layer... UI
python - 如何将线程固定到具有预定内存池对象的内核？ (80 核 Nehalem 架构 2Tb 内存)
在带有 2Tb DRAM 的 80 核 (160HT) nehalem 架构上运行一些测试后，我遇到了一个小的 HPC 问题: 当每个线程开始请求有关“错误”套接字上的对象的信息时，具有 2 个以上套
asp.net-mvc - Azure 网站，中型实例，2 核，多少个应用程序池？
由于潜在的性能问题，我刚刚将测试实例从小型“标准”(1 核，1.75GB RAM)实例升级到中型“标准”实例(2 核，3.5GB RAM)，这似乎是快速击中。我们确实存在应用程序池回收和必须重新预热某
java - 是否有可能在 4 核 Android 设备中高效地实现并行数学计算？ (这个与接口(interface)无关)
我知道，为了在 Android 中保持响应式界面，繁重的工作必须在独立线程中完成。我很清楚如何实现这一点(通过使用 AsynTask...等)，这不是问题的重点，只是让每个人都知道。但是我已经在一个
java - 为什么我的 java 长时间运行的线程(5k+ 线程)没有利用所有机器内核(12 核)？
我写了一个简单的多线程 Java 应用程序，主要方法只创建 5k 个线程，每个线程将循环处理一个包含 5M 条记录的列表。我的机器规范: CPU 内核:12 个内核内存:13Gb RAM 操作系统
multithreading - 如何在 4 核 CPU : 4 threads or 50 threads? 上更快地进行相同的计算
让我们假设我们有固定数量的计算工作，没有阻塞、 sleep 、I/O 等待。工作可以很好地并行化——它由 100M 小而独立的计算任务组成。什么是 4 核 CPU 的速度更快 - 运行 4 个线程或
machine-learning - 使用 RBF 核 SVM 时，c 或 gamma 的高值是否会出现问题？
我正在使用 WEKA/LibSVM 来训练术语提取系统的分类器。我的数据不是线性可分的，因此我使用 RBF 内核而不是线性内核。我关注了guide from Hsu et al.并迭代 c 和 ga
Python multiprocessing.cpu_count() 在 4 核 Nvidia Jetson TK1 上返回 '1'
谁能告诉我为什么在具有四个 ARMv7 处理器的 Jetson TK1 上调用 Python 的 multiprocessing.cpu_count() 函数会返回 1？ >>> import mul

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

optimization - 如何摆脱核心中的 `let`？