algorithm - 列表处理的 Haskell 优化因惰性评估而受阻-6ren

algorithm - 列表处理的 Haskell 优化因惰性评估而受阻

转载作者：塔克拉玛干更新时间：2023-11-03 03:16:45

26

4

我正在尝试提高以下代码的效率。我想计算给定点之前出现的所有符号(作为使用 Burrows-Wheeler 变换进行模式匹配的一部分)。我计算符号的方式有些重叠。然而，当我尝试实现看起来应该是更高效的代码时，结果却效率较低，我认为应该归咎于懒惰的评估和我对它的理解不足。

我第一次尝试计数函数是这样的:

count :: Ord a => [a] -> a -> Int -> Int
count list sym pos = length . filter (== sym) . take pos $ list

然后在匹配函数本身的主体中:

matching str refCol pattern = match 0 (n - 1) (reverse pattern)
  where n = length str
        refFstOcc sym = length $ takeWhile (/= sym) refCol
        match top bottom [] = bottom - top + 1
        match top bottom (sym : syms) =
          let topCt = count str sym top
              bottomCt = count str sym (bottom + 1)
              middleCt = bottomCt - topCt
              refCt = refFstOcc sym
          in if middleCt > 0
               then match (refCt + topCt) (refCt + bottomCt - 1) syms
               else 0

(为简洁起见进行了精简 - 我正在通过 map 记住 refCol 中符号的首次出现，以及其他一些细节)。

编辑:示例使用:

matching "AT$TCTAGT" "$AACGTTTT" "TCG"

应该是 1(假设我没有输错任何东西)。

现在，我将 top 指针和 bottom 指针之间的所有内容重新计算两次，当我计算一百万个字符的 DNA 字符串时只有 4字符的可能选择(分析告诉我这也是最大的瓶颈，我 48% 的时间用于 bottomCt，大约 38% 的时间用于 topCt)。作为引用，当计算一百万个字符串并尝试匹配 50 个模式(每个模式都在 1 到 1000 个字符之间)时，程序运行大约需要 8.5 到 9.5 秒。

但是，如果我尝试实现以下功能:

countBetween :: Ord a => [a] -> a -> Int -> Int -> (Int, Int)
countBetween list sym top bottom =
  let (topList, bottomList) = splitAt top list
      midList = take (bottom - top) bottomList
      getSyms = length . filter (== sym)
  in (getSyms topList, getSyms midList)

(通过更改匹配函数进行补偿)，程序运行时间为 18 到 22 秒。

我也试过传入一个 Map，它可以跟踪以前的调用，但它也需要大约 20 秒才能运行并耗尽内存。

同样，我缩短了 length 。将 (== sym) 过滤到 fold，但同样 - foldr 需要 20 秒，foldl 需要 14-15 秒。

那么通过重写代码来优化此代码的正确 Haskell 方法是什么？ (具体来说，我正在寻找不涉及预计算的东西 - 我可能不会非常重用字符串 - 这解释了为什么会发生这种情况)。

编辑:更清楚地说，我正在寻找的是以下内容:

a) 为什么这种行为会发生在 Haskell 中？惰性求值如何发挥作用，编译器为重写 count 和 countBetween 函数进行了哪些优化，可能还涉及哪些其他因素？

b) 什么是简单的代码重写来解决这个问题，这样我就不会多次遍历列表？我正在寻找专门解决该问题的东西，而不是回避它的解决方案。如果最终答案是，count 是编写代码的最有效方式，那为什么呢？

最佳答案

我不确定惰性计算与代码的性能有多大关系。我认为主要问题是使用字符串——它是一个链表——而不是性能更高的字符串类型。

请注意，在您的 countBetween 函数中调用:

  let (topList, bottomList) = splitAt top list

会重新创建topList对应的linked link 意思更多分配。

比较 splitAt 与使用 take n/drop n 的标准基准可以在这里找到:http://lpaste.net/174526 . splitAt 版本是大约慢了 3 倍，当然还有更多的分配。

即使您不想“预先计算”计数，您也可以改进只需切换到 ByteString 或 Text 即可。

定义:

countSyms :: Char -> ByteString -> Int -> Int -> Int
countSyms sym str lo hi =
  length [ i | i <- [lo..hi], BS.index str i == sym ]

然后:

countBetween :: ByteString -> Char -> Int -> Int -> (Int,Int)
countBetween str sym top bottom = (a,b)
  where a = countSyms sym str 0 (top-1)
        b = countSyms sym str top (bottom-1)

此外，不要在大列表上使用 reverse - 它会重新分配整个列表。只需反向索引到 ByteString/Text。

内存计数可能有帮助也可能没有帮助。这完全取决于它是如何完成的。

关于algorithm - 列表处理的 Haskell 优化因惰性评估而受阻，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38777046/

26

4

0

文章推荐： Javascript 语法 : variable declaration with "<<" or ">>"

Haskell 惰性、求值顺序和模式匹配
我先说我正在学习 Haskel，所以不要太苛刻。 Haskell 的惰性求值可能有用也可能危险，这取决于计算的瓶颈是时间复杂度还是堆栈的大小。出于这个原因，我想更好地了解 Haskell 中求值的工
algorithm - 惰性 A* 实现
我正在开发一款玩具 RTS 游戏，我依赖 A* 寻找路径，问题是很多单位四处移动导致计算的路径变得无效，这导致 CPU 周期浪费，我必须为那些重新计算路径代理商。所以我想为什么不懒惰地计算路径而不是
c# - 正则表达式非贪婪(惰性)
我正在尝试非贪婪地解析出 TD 标签。我从这样的事情开始: stuffMore stuffOther stuffthingsmore things 我使用以下作为我的正则表达式: Regex.Spli
haskell - 查找直角三角形时如何使用 Haskells 惰性
我正在学习 http://learnyouahaskell.com/starting-out 上的(优秀的)Haskell 教程。并且正在尝试直角三角形示例: > let triangles = [(
Haskell 惰性 I/O 和关闭文件
我编写了一个小型 Haskell 程序来打印当前目录中所有文件的 MD5 校验和(递归搜索)。基本上是 md5deep 的 Haskell 版本.一切都很好，除非当前目录有大量文件，在这种情况下我会收
haskell - 惰性 I/O 有什么不好呢？
我通常听说生产代码应该避免使用惰性 I/O。我的问题是，为什么？除了闲逛之外，还可以使用 Lazy I/O 吗？是什么让替代方案(例如枚举器)更好？最佳答案惰性 IO 存在的问题是，释放您所获取的
scala - 惰性 val 有什么作用？
我注意到 Scala 提供了lazy vals。但我不明白他们在做什么。 scala> val x = 15 x: Int = 15 scala> lazy val y = 13 y: Int =
haskell - 惰性 IO - 字符串未被垃圾收集？
我目前正在尝试将 XML 文件的内容读入 Map Int (Map Int String) 并且它工作得很好(使用 HaXml)。但是，我对程序的内存消耗不满意，问题似乎出在垃圾回收上。这是我用来读
scala - 惰性 val 可以尾递归吗？
lazy val seq: Unit = { println("a") seq } 我们可以尾递归调用上面的表达式吗？最佳答案我想你可以从这个意义上说，是的 - 评估时，seq将递归评估自
Scala 惰性 val 缓存
在以下示例中: def maybeTwice2(b: Boolean, i: => Int) = { lazy val j = i if (b) j+j else 0 } 为什么当我这样调用它
scala - Shapeless的“惰性”和默认参数导致隐式解析失败
我的一个项目使用了混合的Scala功能，这些功能似乎不能很好地融合在一起: 类型类和无形自动类型类实例派生隐式转换(向具有类型类实例的类型添加有用的语法) 默认参数，因为即使它们通常是一件坏事，但在
c - 用于稀疏、惰性、不可变数组的线程安全缓存
我有一个应用程序，涉及一个数组集合，这些数组可能非常大(索引最大为 int 的最大值)，但它们是惰性 - 它们内容是动态计算的，并且在请求之前实际上是不知道的。数组也是不可变的 - 每个数组的每个元素
java - 惰性 bean 初始化有什么真正的缺点吗？
最近我开始使用 spring 中的惰性初始化功能很多。所以我一直在徘徊——懒惰地初始化你的 bean 有什么实际的缺点吗？如果不是 - 为什么不是懒惰的默认行为？最佳答案主要的“缺点”是不能立即发
caching - 惰性 HTTP 缓存
我有一个通过信息亭向访问者显示的网站。人们可以与之互动。但是，由于该网站不是本地托管的，而是使用互联网连接 - 页面加载速度很慢。我想实现某种惰性缓存机制，以便在人们浏览页面时 - 页面和页面引用的
python - 惰性 ='joined' 是否意味着急切加载？
我是否正确理解声明关系急切加载的方法是使用lazy='joined'或lazy='subquery'？ “lazy”与“eager”相反——在这种情况下使用“lazy”关键字来表示急切加载，这是一个历
java - 惰性(贪婪)使用正则表达式匹配多个组
我想抓取对之间任何值的内容标签。 This is one block of text This is another one 我想出的正则表达式是 /(.*)/m 虽然，它看起来很贪心，并
ruby - 惰性 JSON 编码
考虑以下几点: z = [{"x" => 5}, 2, 3].lazy.map{ |i| i} #=> #5}, 2, 3]>:map> z.first #=> {"x"=>5} 当我尝试将 z 转换
PHP 惰性 bool 求值
因此我有一个条件语句: if($boolean && expensiveOperation()){ ...} PHP 是否具有惰性 bool 值评估，即它是否会检查 $boolean 并且如果它为 f
scala - @transient 惰性 val 字段序列化
我在 Scala 上有问题。我用 @transient lazy val 序列化了一个类的实例 field 。然后我反序列化它，该字段被分配null .我期待反序列化后的惰性评估。我该怎么办？以下是
Haskell:原子 IO 包装器/惰性？
我编写了以下函数，我认为该函数应该以原子方式执行 IO(只要其他人都使用相同的 MVar)。 atomicIO :: MVar () -> IO a -> IO a atomicIO mvar io

首页

博学

6Ren·AI

商城

algorithm - 列表处理的 Haskell 优化因惰性评估而受阻