haskell - 如何减少 Haskell 应用程序中的内存使用量？-6ren

haskell - 如何减少 Haskell 应用程序中的内存使用量？

转载作者：行者123 更新时间：2023-12-02 02:23:50

25

4

我是函数式编程新手，现在正在学习 Haskell。作为练习，我决定对一维线性扩散方程实现显式欧拉方法。虽然下面的代码可以正常工作，但我对其性能并不满意。事实上，我关心的是内存消耗。我相信它与惰性求值有关，但无法弄清楚如何减少其内存使用量。

该算法的思想非常简单，用命令式的术语来说清楚:它需要一个“数组”，并为每个内部点添加一个值，该值是作为该点本身的值的组合来计算的以及它的邻居。边界点是特殊情况。

所以，这是我的 Euler1D.hs 模块:

module Euler1D
( stepEuler
, makeu0
) where

-- impose zero flux condition
zeroflux :: (Floating a) => a -> [a] -> [a]
zeroflux mu (boundary:inner:xs) = [boundary+mu*2*(inner-boundary)]

-- one step of integration
stepEuler :: (Floating a) => a -> [a] -> [a]
stepEuler mu u@(x:xs) = (applyBC . (diffused mu)) u
    where
          diffused mu (left:x:[]) = []    -- ignore outer points
          diffused mu (left:x:right:xs) = -- integrate inner points
                   (x+mu*(left+right-2*x)) : diffused mu (x:right:xs)
          applyBC inner = (lbc u') ++ inner ++ (rbc u') -- boundary conditions
               where u' = [head u] ++ inner ++ [last u]
                     lbc = zeroflux mu             -- left boundary
                     rbc = (zeroflux mu) . reverse -- right boundary

-- initial condition
makeu0 :: Int -> [Double]
makeu0 n = [ ((^2) . sin . (pi*) . xi) x | x <- [0..n]]
    where xi x = fromIntegral x / fromIntegral n

还有一个简单的 Main.hs:

module Main where

import System ( getArgs )
import Euler1D

main = do
      args <- getArgs
      let n = read $ head args :: Int
      let u0 = makeu0 n
      let un = stepEuler 0.5 u0
      putStrLn $ show $ sum un

为了比较，我还写了a pure C implementation .

现在，如果我尝试为足够大的数组运行 Haskell 实现 n ，我有:

$ time ./eulerhs 200000
100000.00000000112

real    0m3.552s
user    0m3.304s
sys     0m0.128s

相比之下，C 版本快了几乎两个数量级:

$ time ./eulerc 200000
100000

real    0m0.088s
user    0m0.048s
sys     0m0.008s

EDIT: This comparison is not really fair, because Haskell version is compiled with profiling flags, and C is not. If I compile both programs with -O2 and both without profiling flags, I can increase n. In this case time ./eulerhs 1000000 takes 0m2.236s, while time ./eulerc 1000000 takes only 0m0.293s. So the problem still remains with all optimizations and without profiling, it is only offset.

I would like also to note, that memory allocation of the Haskell program seems to grow lineary with n. This is probably OK.

但最糟糕的是内存要求。我的 Haskell 版本需要超过 100MB(我估计 C 语言的最低要求是4MB)。我想这可能就是问题的根源。根据分析报告，该程序 85% 的时间都花在 GC 上，并且

        total time  =        0.36 secs   (18 ticks @ 20 ms)
        total alloc = 116,835,180 bytes  (excludes profiling overheads)

COST CENTRE                    MODULE               %time %alloc

makeu0                         Euler1D               61.1   34.9
stepEuler                      Euler1D               33.3   59.6
CAF:sum                        Main                   5.6    5.5

我很惊讶地看到 makeu0太贵了。我认为这是由于它的惰性评估(如果它的 thunk 保留在内存中直到 stepEuler 结束)。

我在 Main.hs 中尝试了此更改:

   let un = u0 `seq` stepEuler 0.5 u0

但没有注意到任何差异。我不知道如何减少 stepEuler 中的内存使用量。所以，我的问题是:

Haskell 有没有办法严格构建列表/执行列表推导？在这种情况下，保持懒惰没有任何好处。
在这种情况下如何减少总体内存使用量？我想，我必须做一些严格的事情，但看不到什么。换句话说，如果我必须输入一些 seq s和刘海，在哪里以及为什么？
最后，最重要的是，识别此类昂贵结构的最佳策略是什么？

我确实在 Real World Haskell 中阅读了有关分析和优化的章节。，但目前还不清楚我如何准确地决定什么应该严格，什么不应该严格。

请原谅我这么长的帖子。

EDIT2: As suggested by A. Rex in comments, I tried running both programs in valgrind. And this is what I observed. For Haskell program (n=200000) it found:

malloc/free: 33 allocs, 30 frees, 84,109 bytes allocated. ... checked 55,712,980 bytes.

对于 C 程序(经过小修改):

malloc/free: 2 allocs, 2 frees, 3,200,000 bytes allocated.

所以，看起来虽然 Haskell 分配更小的内存块，它经常这样做，并且由于延迟垃圾收集，它们积累并留在内存中。所以我有另一个问题:

是否可以避免很多 Haskell 中的小分配？基本上，要声明，我需要处理整个数据结构而不仅仅是它的碎片需求。

最佳答案

列表并不是此类代码的最佳数据结构(有很多 (++) 和 (last))。您会花费大量时间来构建和解构列表。我会使用 Data.Sequence 或数组，就像在 C 版本中一样。
makeu0 的 thunk 不可能被垃圾收集，因为你需要保留所有它们(准确地说，是“diffuse”的所有结果)一直到最后的计算以便能够在 applyBC 中进行“反向”操作。这是非常昂贵的事情，考虑到您只需要列表末尾的两项作为“zeroflux”。

这是对代码的快速破解，尝试实现更好的列表融合并减少列表(解)构造:

module Euler1D
( stepEuler
) where

-- impose zero flux condition
zeroflux mu (boundary:inner:xs) = boundary+mu*2*(inner-boundary)

-- one step of integration
stepEuler mu n = (applyBC . (diffused mu)) $ makeu0 n
    where
          diffused mu (left:x:[]) = []    -- ignore outer points
          diffused mu (left:x:right:xs) = -- integrate inner points
                   let y = (x+mu*(left+right-2*x))
                       in y `seq` y : diffused mu (x:right:xs)
          applyBC inner = lbc + sum inner + rbc -- boundary conditions
               where
                     lbc = zeroflux mu ((f 0 n):inner)             -- left boundary
                     rbc = zeroflux mu ((f n n):(take 2 $ reverse inner)) -- right boundary

-- initial condition
makeu0 n = [ f x n | x <- [0..n]]

f x n = ((^2) . sin . (pi*) . xi) x
    where xi x = fromIntegral x / fromIntegral n

对于 200000 点，它在 0.8 秒内完成，而初始版本为 3.8 秒

关于haskell - 如何减少 Haskell 应用程序中的内存使用量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/459725/

25

4

0

文章推荐： spring - java配置中出现Weblogic jndi NameNotFoundException

文章推荐： parsing - 带括号的简单计算器如何工作？

文章推荐： ScrollViewer 水平鼠标滚轮滚动

文章推荐： java - 如何长时间从图库中获取图片Uri？

Java 内存/gc 问题(JRE 内存、堆空间不足和 gc 已满)
我在具有 2CPU 和 3.75GB 内存 (https://aws.amazon.com/ec2/instance-types/) 的 c3.large Amazon EC2 ubuntu 机器上运
linux-kernel - 如何在 Linux 中写入 VGA 内存(不是视频缓冲区，内存)以在屏幕上显示 Logo ？
我想通过用户空间中的mmap-ing并将地址发送到内核空间从用户空间写入VGA内存(视频内存，而不是缓冲区)，我将使用pfn remap将这些mmap-ed地址映射到vga内存(我将通过 lspci
Julia 内存
在 Mathematica 中，如果你想让一个函数记住它的值，它在语法上是很轻松的。例如，这是标准示例 - 斐波那契: fib[1] = 1 fib[2] = 1 fib[n_]:= fib[n] =
在编译时分配的c++内存
我读到动态内存是在运行时在堆上分配的，而静态内存是在编译时在堆栈上分配的，因为编译器知道在编译时必须分配多少内存。考虑以下代码: int n; cin>>n; int a[n]; 如果仅在运行期间读
Python 在内存中保存数据？ (内存)
我是 Python 的新手，但我之前还不知道这一点。我在 for 循环中有一个基本程序，它从站点请求数据并将其保存到文本文件但是当我检查我的任务管理器时，我发现内存使用量只增加了？长时间运行时，这对我
用于查找表的 CUDA 内存
我正在设计一组数学函数并在 CPU 和 GPU(使用 CUDA)版本中实现它们。其中一些函数基于查找表。大多数表占用 4KB，其中一些占用更多。基于查找表的函数接受一个输入，选择查找表的一两个条目，
无法访问第一个地址以外的 malloc 内存
读入一个文件，内存被动态分配给一个字符串，文件内容将被放置在这里。这是在函数内部完成的，字符串作为 char **str 传递。使用 gdb 我发现在行 **(str+i) = fgetc(aFil
JSP session 内存？
我需要证实一个理论。我正在学习 JSP/Java。在查看了一个现有的应用程序(我没有写)之后，我注意到一些我认为导致我们的性能问题的东西。或者至少是其中的一部分。它是这样工作的: 1)用户打开搜索
R:环境的缓存/内存
n我想使用memoization缓存某些昂贵操作的结果，这样就不会一遍又一遍地计算它们。两个memoise和 R.cache适合我的需要。但是，我发现缓存在调用之间并不可靠。这是一个演示我看到的问
javascript - 为什么给变量赋值给自己内存=内存？
我目前正在分析一些 javascript shell 代码。这是该脚本中的一行: function having() { memory = memory; setTimeout("F0
elasticsearch - 内存 Elasticsearch
我有一种情况，我想一次查询数据库，然后再将整个数据缓存在内存中。我得到了内存中 Elasticsearch 的建议，我用谷歌搜索了它是什么，以及如何在自己的 spring boot 应用程序中实现它
Haskell、内存、堆栈溢出
我正在研究 Project Euler (http://projecteuler.net/problem=14) 的第 14 题。我正在尝试使用内存功能，以便将给定数字的序列长度保存为部分结果。我正在
java - 内存/注意力游戏问题
所以，我一直在做 Java 内存/注意力游戏作业。我还没有达到我想要的程度，它只完成了一半，但我确实让 GUI 大部分工作了......直到我尝试向我的框架添加单选按钮。我认为问题可能是因为我将 JF
Flask/Jinja 内存
我一直在尝试使用 Flask-Cache 的 memoize 功能来仅返回 statusTS() 的缓存结果，除非在另一个请求中满足特定条件，然后删除缓存。但它并没有被删除，并且 Jinja 模板仍
php - =& 运算符，内存
我对如何使用 & 运算符来减少内存感到非常困惑。我可以回答下面的问题吗？ clase C{ function B(&$a){ $this->a = &$a; $thi
java - 字符串性能-内存
在编写代码时，我遇到了一个有趣的问题。我有一个 PersonPOJO，其 name 作为其 String 成员之一及其 getter 和 setter class PersonPOJO { priv
java - java中这两个构造函数有什么区别？ (内存)
在此代码中 public class Base { int length, breadth, height; Base(int l, int b, int h) { l
c - 内存 - 自然地址边界
Definition Structure padding is the process of aligning data members of the structure in accordance
没有闭包作用域的 Javascript 内存
在 JavaScript Ninja 的 secret 中，作者提出了以下方案，用于在没有闭包的情况下内存函数结果。他们通过利用函数是对象这一事实并在函数上定义一个属性来存储过去调用函数的结果来实现这
使用的 Java 内存
我正在尝试找出 map 消耗的 RAM 量。所以，我做了以下事情；- Map cr = crPair.collectAsMap(); // 200+ entries System.out.printl

首页

博学

6Ren·AI

商城

haskell - 如何减少 Haskell 应用程序中的内存使用量？