performance - Haskell:我可以在同一个惰性列表上执行多次折叠而不将列表保存在内存中吗？-6ren

performance - Haskell:我可以在同一个惰性列表上执行多次折叠而不将列表保存在内存中吗？

转载作者：行者123 更新时间：2023-12-02 01:26:12

24

4

我的背景是生物信息学，尤其是下一代测序，但问题是通用的；所以我将以一个日志文件为例。

该文件非常大(千兆字节大，已压缩，因此无法放入内存)，但易于解析(每一行都是一个条目)，因此我们可以轻松编写如下内容:

parse :: Lazy.ByteString -> [LogEntry]

现在，我想从日志文件中计算出很多统计数据。编写单独的函数是最简单的，例如:

totalEntries = length
nrBots = sum . map fromEnum . map isBotEntry
averageTimeOfDay = histogram . map extractHour

所有这些都是 foldl' k z . map f 的形式.

问题是，如果我尝试以最自然的方式使用它们，比如

main = do
    input <- Lazy.readFile "input.txt"
    let logEntries = parse input
        totalEntries' = totalEntries logEntries
        nrBots' = nrBots logEntries
        avgTOD = averageTimeOfDay logEntries
    print totalEntries'
    print nrBots'
    print avgTOD

这将在内存中分配整个列表，这不是我想要的。我希望折叠同步完成，以便可以对 cons 单元进行垃圾收集。如果我只计算一个统计数据，就会发生这种情况。

我可以编写一个大函数来执行此操作，但它是不可组合的代码。

或者，这就是我一直在做的，我分别运行每个 channel ，但这每次都会重新加载和解压缩文件。

最佳答案

这是对 sdcvvc 的评论的评论，指的是这个 'beautiful folding' essay太酷了——正如他所说，很漂亮——我忍不住加了Functor和 Applicative实例和其他一些现代化。同时折叠，例如，x y和 z是一个简单的产品:(,,) <$> x <*> y <*> z .我制作了一个 0.5GB 的小随机整数文件，在我生锈的笔记本电脑上计算长度、总和和最大值花了 10 秒。进一步的注释似乎没有帮助，但编译器可以看到 Int是我唯一感兴趣的；明显的map read . lines作为解析器导致了无望的空间和时间灾难，所以我粗略地使用了ByteString.readInt。 ;否则它基本上是 Data.List过程。

{-# LANGUAGE GADTs, BangPatterns #-}

import Data.List (foldl', unfoldr)
import Control.Applicative 
import qualified Data.ByteString.Lazy.Char8 as B

main = fmap readInts (B.readFile "int.txt") >>= print . fold allThree
  where allThree = (,,) <$> length_ <*> sum_ <*> maximum_

data Fold b c where  F ::  (a -> b -> a) -> a -> (a -> c) -> Fold b c
data Pair a b = P !a !b

instance Functor (Fold b) where  fmap f (F op x g) = F op x (f . g)

instance Applicative (Fold b) where
  pure c = F const () (const c)
  (F f x c) <*> (F g y c') = F (comb f g) (P x y) (c *** c')
    where comb f g (P a a') b = P (f a b) (g a' b)
          (***) f g (P x y) = f x ( g y)

fold :: Fold b c -> [b] -> c
fold (F f x c) bs = c $ (foldl' f x bs)

sum_, product_ :: Num a => Fold a a
length_ :: Fold a Int
sum_     = F (+) 0 id
product_ = F (*) 1 id
length_  = F (const . (+1)) 0 id
maximum_ = F max 0 id
readInts  = unfoldr $ \bs -> case B.readInt bs of
  Nothing      -> Nothing
  Just (n,bs2) -> if not (B.null bs2) then Just (n,B.tail bs2) 
                                      else Just (n,B.empty)

编辑:毫不奇怪，因为我们必须处理上面的未装箱类型，以及派生自例如的未装箱向量。一个 2G 文件可以放入内存中，如果对 Data.Vector.Uboxed http://hpaste.org/69270 进行明显的重新字母处理，速度会提高一倍，并且表现得更好一些。当然，这与具有 LogEntry 之类的类型无关。请注意， Fold type 和 Fold '乘法'概括了没有修改的顺序类型，因此例如与 Char 上的操作相关的折叠s 或 Word8 s 可以同时直接折叠在 ByteString 上。必须首先定义一个 foldB , 通过转写 fold使用 foldl' s 在各种 ByteString 模块中。但是 Fold Fold 的产品和产品s 与折叠 Char 的列表或向量的相同。 s 或 Word8 s

关于performance - Haskell:我可以在同一个惰性列表上执行多次折叠而不将列表保存在内存中吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10803221/

24

4

0

文章推荐： f# - 使用 FAKE，有没有办法获取整个构建日志？

文章推荐： visual-c++ - Visual C++ 2015 虚表汇编输出的困惑

文章推荐： swing - 如何开始将 Java Swing 应用程序迁移到 JavaFX？

文章推荐： asp.net-mvc - 如何将样式应用于聚合物元素？

haskell - Haskell 和类 Haskell 语言之间的类型声明语法差异
在 Haskell 中，类型声明使用双冒号，即 (::)，如 not::Bool -> Bool。但是在许多语法与 Haskell 类似的语言中，例如榆树、 Agda 、他们使用单个冒号(:)来声明
haskell - 在模板 haskell 中运行模板 haskell
insertST :: StateDecoder -> SomeState -> Update SomeState SomeThing insertST stDecoder st = ... Stat
haskell - 在 Haskell ("second order Haskell"中生成 Haskell 类型的工具？
如果这个问题有点含糊，请提前道歉。这是一些周末白日梦的结果。借助 Haskell 出色的类型系统，将数学(尤其是代数)结构表达为类型类是非常令人愉快的。我的意思是，看看 numeric-prelud
haskell - 如何仅使用 Haskell 无休止地运行 Haskell 程序？
我有需要每 5 分钟执行一次的小程序。目前，我有执行该任务的 shell 脚本，但我想通过 CLI 中的键为用户提供无需其他脚本即可运行它的能力。实现这一目标的最佳方法是什么？最佳答案我想你会
haskell - 需要以真实世界 Haskell 风格解决哪些 Haskell 主题？
RWH 面世已经有一段时间了(将近 3 年)。在在线跟踪这本书的渐进式写作之后，我渴望获得我的副本(我认为这是写书的最佳方式之一。)在所有相当学术性的论文中，作为一个 haskell 学生，读起来多么
haskell - 用 Haskell 编写 Haskell 解释器
一个经典的编程练习是用 Lisp/Scheme 编写一个 Lisp/Scheme 解释器。可以利用完整语言的力量来为该语言的子集生成解释器。 Haskell 有类似的练习吗？我想使用 Haskell
haskell - Haskell 中的仿函数定义及其在 Learn You a Haskell 中的解释令人困惑
以下摘自' Learn You a Haskell ' 表示 f 在函数中用作“值的类型”。这是什么意思？即“值的类型”是什么意思？ Int 是“值的类型”，对吗？但是 Maybe 不是“值的类型”
haskell - haskell 中有包含字符串和列表的类型吗？
现在我正在尝试创建一个基本函数，用于删除句子中的所有空格或逗号。 stringToIntList :: [Char] -> [Char] stringToIntList inpt = [ a | a
haskell - 案例中的模式匹配，Haskell
我是 Haskell 的新手，对模式匹配有疑问。这是代码的高度简化版本: data Value = MyBool Bool | MyInt Integer codeDuplicate1 :: Valu
haskell - Haskell 中的这个仿函数是什么意思？
如何解释这个表达式？ :t (+) (+3) (*100) 自和具有相同的优先级并且是左结合的。我认为这与 ((+) (+3)) (*100) 相同.但是，我不知道它的作用。在 Learn
haskell - Haskell 如何计算表达式
这怎么行 > (* 30) 4 120 但这不是 > * 30 40 error: parse error on input ‘*’ 最佳答案 (* 30) 是一个 section，它仍然将 * 视为
haskell - 删除满足谓词的第一个元素(Haskell)
我想创建一个函数，删除满足第二个参数中给定谓词的第一个元素。像这样: removeFirst "abab" ( 'b') = "abab" removeFirst [1,2,3,4] even =
haskell - Haskell 中的内存
Context : def fib(n): if n aand returns a memoized version of the same function. The trick is t
haskell - 惰性评估和严格评估 Haskell
我明白惰性求值是什么，它是如何工作的以及它有什么优势，但是你能解释一下 Haskell 中什么是严格求值吗？我似乎找不到太多关于它的信息，因为惰性评估是最著名的。他们各自的优势是什么。什么时候真正使
haskell - Haskell 中的反向函数行为
digits :: Int -> [Int] digits n = reverse (x) where x | n digits 1234 = [3,1,2,4]
haskell - Haskell 是否支持类型类的匿名实例？
我在 F# 中有以下代码(来自一本书) open System.Collections.Generic type Table = abstract Item : 'T -> 'U with ge
haskell - 使用需要多个输入的过滤器 - Haskell
我对 Haskell 比较陌生，过去几周一直在尝试学习它，但一直停留在过滤器和谓词上，我希望能得到帮助以帮助理解。我遇到了一个问题，我有一个元组列表。每个元组包含一个 (songName, song
haskell - 或采用两个值参数 haskell
我是 haskell 的初学者，我试图为埃拉托色尼筛法定义一个简单的函数，但它说错误: • Couldn't match expected type ‘Bool -> Bool’
haskell - Haskell 中的读取函数
我是 Haskell 语言的新手，我在使用 read 函数时遇到了一些问题。准确地说，我的理解是: read "8.2" + 3.8 应该返回 12.0，因为我们希望返回与第二个成员相同的类型。我真正
haskell - Haskell 声明中的感叹号是什么意思？
当我尝试使用真实项目来驱动它来学习 Haskell 时，我遇到了以下定义。我不明白每个参数前面的感叹号是什么意思，我的书上好像也没有提到。 data MidiMessage = MidiMessage

首页

博学

6Ren·AI

商城

performance - Haskell:我可以在同一个惰性列表上执行多次折叠而不将列表保存在内存中吗？