haskell - 我该如何内存？-6ren

haskell - 我该如何内存？

转载作者：行者123 更新时间：2023-12-02 12:15:23

26

4

我已经编写了这个计算 Collatz 序列的函数，并且我发现执行时间根据我给它的旋转而变化很大。显然它与一种叫做“记忆化”的东西有关，但我很难理解它是什么以及它是如何工作的，不幸的是，HaskellWiki 上的相关文章以及它链接到的论文都被证明不是是很容易克服的。他们讨论了高度外行人无法区分的树结构的相对性能的复杂细节，而我错过的一定是这些来源忽略提及的一些非常基本、非常琐碎的点。

这是代码。这是一个完整的程序，可以构建和执行。

module Main where

import Data.Function
import Data.List (maximumBy)

size :: (Integral a) => a
size = 10 ^ 6

-- Nail the basics.

collatz :: Integral a => a -> a
collatz n | even n = n `div` 2
          | otherwise = n * 3 + 1

recollatz :: Integral a => a -> a
recollatz = fix $ \f x -> if (x /= 1) 
                          then f (collatz x)
                          else x

-- Now, I want to do the counting with a tuple monad.

mocollatz :: Integral b => b -> ([b], b)
mocollatz n = ([n], collatz n)

remocollatz :: Integral a => a -> ([a], a)
remocollatz = fix $ \f x -> if x /= 1
                            then f =<< mocollatz x
                            else return x

-- Trivialities.

collatzLength :: Integral a => a -> Int
collatzLength x = (length . fst $ (remocollatz x)) + 1

collatzPairs :: Integral a => a -> [(a, Int)]
collatzPairs n = zip [1..n] (collatzLength <$> [1..n])

longestCollatz :: Integral a => a -> (a, Int)
longestCollatz n = maximumBy order $ collatzPairs n
  where
    order :: Ord b => (a, b) -> (a, b) -> Ordering
    order x y = snd x `compare` snd y

main :: IO ()
main = print $ longestCollatz size

使用 ghc -O2 大约需要 17 秒，没有 ghc -O2 大约需要 22 秒才能传递从开始的最长 Collatz 序列的长度和种子任何低于 size 的点。

现在，如果我进行这些更改:

diff --git a/Main.hs b/Main.hs
index c78ad95..9607fe0 100644
--- a/Main.hs
+++ b/Main.hs
@@ -1,6 +1,7 @@
 module Main where

 import Data.Function
+import qualified Data.Map.Lazy as M
 import Data.List (maximumBy)

 size :: (Integral a) => a
@@ -22,10 +23,15 @@ recollatz = fix $ \f x -> if (x /= 1)
 mocollatz :: Integral b => b -> ([b], b)
 mocollatz n = ([n], collatz n)

-remocollatz :: Integral a => a -> ([a], a)
-remocollatz = fix $ \f x -> if x /= 1
-                            then f =<< mocollatz x
-                            else return x
+remocollatz :: (Num a, Integral b) => b -> ([b], a)
+remocollatz 1 = return 1
+remocollatz x = case M.lookup x (table mutate) of
+    Nothing -> mutate x
+    Just y  -> y
+  where mutate x = remocollatz =<< mocollatz x
+
+table :: (Ord a, Integral a) => (a -> b) -> M.Map a b
+table f = M.fromList [ (x, f x) | x <- [1..size] ]

 -- Trivialities.

-- 如果使用 ghc -O2，则只需大约 4 秒，但如果没有 ghc -O2，我就活不了多久看到它完成。

使用 ghc -prof -fprof-auto -O2 查看成本中心的详细信息，发现第一个版本进入 collatz 大约一亿次，而修补的版本则进入 collatz 大约一亿次一次——大约一百五十万次。这肯定是加速的原因，但我很难理解这个魔法的内部运作原理。我最好的想法是，我们用 O(log n) 映射查找替换一部分昂贵的递归调用，但我不知道这是否属实以及为什么它如此依赖于一些被遗弃的编译器标志，而正如我所见，这种性能波动应该完全由语言决定。

我能否解释一下这里发生的情况，以及为什么 ghc -O2 和普通 ghc 版本之间的性能差异如此之大？

<小时/>

附注Stack Overflow 上其他地方强调了实现自动记忆化的两个要求:

将要内存的函数设置为顶级名称。
将要内存的函数设为单态函数。

根据这些要求，我重建了 remocollatz，如下所示:

remocollatz :: Int -> ([Int], Int)
remocollatz 1 = return 1
remocollatz x = mutate x

mutate :: Int -> ([Int], Int)
mutate x = remocollatz =<< mocollatz x

现在它已经达到了最高级别和单态性。与类似的单态 table 版本相比，运行时间约为 11 秒:

remocollatz :: Int -> ([Int], Int)
remocollatz 1 = return 1
remocollatz x = case M.lookup x (table mutate) of
    Nothing -> mutate x
    Just y  -> y

mutate :: Int -> ([Int], Int)
mutate = \x -> remocollatz =<< mocollatz x

table :: (Int -> ([Int], Int)) -> M.Map Int ([Int], Int)
table f = M.fromList [ (x, f x) | x <- [1..size] ]

-- 运行时间不到 4 秒。

我想知道为什么内存 ghc 在第一种情况下的执行速度比我的哑表慢了近 3 倍。

最佳答案

Can I haz an explanation of what happens here, and why the performance differs so vastly between ghc -O2 and plain ghc builds?

免责声明:这是一个猜测，未通过查看 GHC 核心输出进行验证。仔细的回答将验证下面概述的猜想。您可以尝试自己查看它:将 -ddump-simpl 添加到您的编译行，您将获得大量输出，详细说明 GHC 对您的代码做了什么。

你写:

remocollatz x = {- ... -} table mutate {- ... -}
  where mutate x = remocollatz =<< mocollatz x

表达式table mutate实际上并不依赖于x；但它出现在以 x 作为参数的方程的右侧。因此，如果不进行优化，每次调用 remocollatz 时都会重新计算该表(可能甚至是在 table mutate 的计算内部)。

通过优化，GHC 注意到 table mutate 不依赖于 x，并将其 float 到自己的定义，从而有效地生成:

fresh_variable_name = table mutate
  where mutate x = remocollatz =<< mocollatz x

remocollatz x = case M.lookup x fresh_variable_name of
    {- ... -}

因此，在整个程序运行过程中，该表仅计算一次。

don't know why it [the performance] depends so much on some godforsaken compiler flags, while, as I see it, such performance swings should all follow solely from the language.

抱歉，Haskell 不是这样工作的。语言定义清楚地说明了给定 Haskell 术语的含义，但没有说明计算该含义所需的运行时或内存性能。

关于haskell - 我该如何内存？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48286026/

26

4

0

文章推荐： android - RxJava中的特殊注释

文章推荐： JavaScript 函数和新函数的区别

文章推荐： C 参数不起作用？

文章推荐： eclipse - 如何从插件中引用图标？

haskell - Haskell 和类 Haskell 语言之间的类型声明语法差异
在 Haskell 中，类型声明使用双冒号，即 (::)，如 not::Bool -> Bool。但是在许多语法与 Haskell 类似的语言中，例如榆树、 Agda 、他们使用单个冒号(:)来声明
haskell - 在模板 haskell 中运行模板 haskell
insertST :: StateDecoder -> SomeState -> Update SomeState SomeThing insertST stDecoder st = ... Stat
haskell - 在 Haskell ("second order Haskell"中生成 Haskell 类型的工具？
如果这个问题有点含糊，请提前道歉。这是一些周末白日梦的结果。借助 Haskell 出色的类型系统，将数学(尤其是代数)结构表达为类型类是非常令人愉快的。我的意思是，看看 numeric-prelud
haskell - 如何仅使用 Haskell 无休止地运行 Haskell 程序？
我有需要每 5 分钟执行一次的小程序。目前，我有执行该任务的 shell 脚本，但我想通过 CLI 中的键为用户提供无需其他脚本即可运行它的能力。实现这一目标的最佳方法是什么？最佳答案我想你会
haskell - 需要以真实世界 Haskell 风格解决哪些 Haskell 主题？
RWH 面世已经有一段时间了(将近 3 年)。在在线跟踪这本书的渐进式写作之后，我渴望获得我的副本(我认为这是写书的最佳方式之一。)在所有相当学术性的论文中，作为一个 haskell 学生，读起来多么
haskell - 用 Haskell 编写 Haskell 解释器
一个经典的编程练习是用 Lisp/Scheme 编写一个 Lisp/Scheme 解释器。可以利用完整语言的力量来为该语言的子集生成解释器。 Haskell 有类似的练习吗？我想使用 Haskell
haskell - Haskell 中的仿函数定义及其在 Learn You a Haskell 中的解释令人困惑
以下摘自' Learn You a Haskell ' 表示 f 在函数中用作“值的类型”。这是什么意思？即“值的类型”是什么意思？ Int 是“值的类型”，对吗？但是 Maybe 不是“值的类型”
haskell - haskell 中有包含字符串和列表的类型吗？
现在我正在尝试创建一个基本函数，用于删除句子中的所有空格或逗号。 stringToIntList :: [Char] -> [Char] stringToIntList inpt = [ a | a
haskell - 案例中的模式匹配，Haskell
我是 Haskell 的新手，对模式匹配有疑问。这是代码的高度简化版本: data Value = MyBool Bool | MyInt Integer codeDuplicate1 :: Valu
haskell - Haskell 中的这个仿函数是什么意思？
如何解释这个表达式？ :t (+) (+3) (*100) 自和具有相同的优先级并且是左结合的。我认为这与 ((+) (+3)) (*100) 相同.但是，我不知道它的作用。在 Learn
haskell - Haskell 如何计算表达式
这怎么行 > (* 30) 4 120 但这不是 > * 30 40 error: parse error on input ‘*’ 最佳答案 (* 30) 是一个 section，它仍然将 * 视为
haskell - 删除满足谓词的第一个元素(Haskell)
我想创建一个函数，删除满足第二个参数中给定谓词的第一个元素。像这样: removeFirst "abab" ( 'b') = "abab" removeFirst [1,2,3,4] even =
haskell - Haskell 中的内存
Context : def fib(n): if n aand returns a memoized version of the same function. The trick is t
haskell - 惰性评估和严格评估 Haskell
我明白惰性求值是什么，它是如何工作的以及它有什么优势，但是你能解释一下 Haskell 中什么是严格求值吗？我似乎找不到太多关于它的信息，因为惰性评估是最著名的。他们各自的优势是什么。什么时候真正使
haskell - Haskell 中的反向函数行为
digits :: Int -> [Int] digits n = reverse (x) where x | n digits 1234 = [3,1,2,4]
haskell - Haskell 是否支持类型类的匿名实例？
我在 F# 中有以下代码(来自一本书) open System.Collections.Generic type Table = abstract Item : 'T -> 'U with ge
haskell - 使用需要多个输入的过滤器 - Haskell
我对 Haskell 比较陌生，过去几周一直在尝试学习它，但一直停留在过滤器和谓词上，我希望能得到帮助以帮助理解。我遇到了一个问题，我有一个元组列表。每个元组包含一个 (songName, song
haskell - 或采用两个值参数 haskell
我是 haskell 的初学者，我试图为埃拉托色尼筛法定义一个简单的函数，但它说错误: • Couldn't match expected type ‘Bool -> Bool’
haskell - Haskell 中的读取函数
我是 Haskell 语言的新手，我在使用 read 函数时遇到了一些问题。准确地说，我的理解是: read "8.2" + 3.8 应该返回 12.0，因为我们希望返回与第二个成员相同的类型。我真正
haskell - Haskell 声明中的感叹号是什么意思？
当我尝试使用真实项目来驱动它来学习 Haskell 时，我遇到了以下定义。我不明白每个参数前面的感叹号是什么意思，我的书上好像也没有提到。 data MidiMessage = MidiMessage

首页

博学

6Ren·AI

商城

haskell - 我该如何内存？