- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在尝试提高以下代码的效率。我想计算给定点之前出现的所有符号(作为使用 Burrows-Wheeler 变换进行模式匹配的一部分)。我计算符号的方式有些重叠。然而,当我尝试实现看起来应该是更高效的代码时,结果却效率较低,我认为应该归咎于懒惰的评估和我对它的理解不足。
我第一次尝试计数函数是这样的:
count :: Ord a => [a] -> a -> Int -> Int
count list sym pos = length . filter (== sym) . take pos $ list
然后在匹配函数本身的主体中:
matching str refCol pattern = match 0 (n - 1) (reverse pattern)
where n = length str
refFstOcc sym = length $ takeWhile (/= sym) refCol
match top bottom [] = bottom - top + 1
match top bottom (sym : syms) =
let topCt = count str sym top
bottomCt = count str sym (bottom + 1)
middleCt = bottomCt - topCt
refCt = refFstOcc sym
in if middleCt > 0
then match (refCt + topCt) (refCt + bottomCt - 1) syms
else 0
(为简洁起见进行了精简 - 我正在通过 map 记住 refCol 中符号的首次出现,以及其他一些细节)。
编辑:示例使用:
matching "AT$TCTAGT" "$AACGTTTT" "TCG"
应该是 1(假设我没有输错任何东西)。
现在,我将 top
指针和 bottom
指针之间的所有内容重新计算两次,当我计算一百万个字符的 DNA 字符串时只有 4字符的可能选择(分析告诉我这也是最大的瓶颈,我 48% 的时间用于 bottomCt,大约 38% 的时间用于 topCt)。作为引用,当计算一百万个字符串并尝试匹配 50 个模式(每个模式都在 1 到 1000 个字符之间)时,程序运行大约需要 8.5 到 9.5 秒。
但是,如果我尝试实现以下功能:
countBetween :: Ord a => [a] -> a -> Int -> Int -> (Int, Int)
countBetween list sym top bottom =
let (topList, bottomList) = splitAt top list
midList = take (bottom - top) bottomList
getSyms = length . filter (== sym)
in (getSyms topList, getSyms midList)
(通过更改匹配函数进行补偿),程序运行时间为 18 到 22 秒。
我也试过传入一个 Map,它可以跟踪以前的调用,但它也需要大约 20 秒才能运行并耗尽内存。
同样,我缩短了 length 。将 (== sym)
过滤到 fold
,但同样 - foldr
需要 20 秒,foldl
需要 14-15 秒。
那么通过重写代码来优化此代码的正确 Haskell 方法是什么? (具体来说,我正在寻找不涉及预计算的东西 - 我可能不会非常重用字符串 - 这解释了为什么会发生这种情况)。
编辑:更清楚地说,我正在寻找的是以下内容:
a) 为什么这种行为会发生在 Haskell 中?惰性求值如何发挥作用,编译器为重写 count
和 countBetween
函数进行了哪些优化,可能还涉及哪些其他因素?
b) 什么是简单的代码重写来解决这个问题,这样我就不会多次遍历列表?我正在寻找专门解决该问题的东西,而不是回避它的解决方案。如果最终答案是,count
是编写代码的最有效方式,那为什么呢?
最佳答案
我不确定惰性计算与代码的性能有多大关系。我认为主要问题是使用字符串——它是一个链表——而不是性能更高的字符串类型。
请注意,在您的 countBetween
函数中调用:
let (topList, bottomList) = splitAt top list
会重新创建topList
对应的linked link 意思更多分配。
比较 splitAt
与使用 take n/drop n
的标准基准可以在这里找到:http://lpaste.net/174526 . splitAt
版本是大约慢了 3 倍,当然还有更多的分配。
即使您不想“预先计算”计数,您也可以改进只需切换到 ByteString 或 Text 即可。
定义:
countSyms :: Char -> ByteString -> Int -> Int -> Int
countSyms sym str lo hi =
length [ i | i <- [lo..hi], BS.index str i == sym ]
然后:
countBetween :: ByteString -> Char -> Int -> Int -> (Int,Int)
countBetween str sym top bottom = (a,b)
where a = countSyms sym str 0 (top-1)
b = countSyms sym str top (bottom-1)
此外,不要在大列表上使用 reverse
- 它会重新分配整个列表。只需反向索引到 ByteString/Text。
内存计数可能有帮助也可能没有帮助。这完全取决于它是如何完成的。
关于algorithm - 列表处理的 Haskell 优化因惰性评估而受阻,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38777046/
我先说我正在学习 Haskel,所以不要太苛刻。 Haskell 的惰性求值可能有用也可能危险,这取决于计算的瓶颈是时间复杂度还是堆栈的大小。 出于这个原因,我想更好地了解 Haskell 中求值的工
我正在开发一款玩具 RTS 游戏,我依赖 A* 寻找路径,问题是很多单位四处移动导致计算的路径变得无效,这导致 CPU 周期浪费,我必须为那些重新计算路径代理商。 所以我想为什么不懒惰地计算路径而不是
我正在尝试非贪婪地解析出 TD 标签。我从这样的事情开始: stuffMore stuffOther stuffthingsmore things 我使用以下作为我的正则表达式: Regex.Spli
我正在学习 http://learnyouahaskell.com/starting-out 上的(优秀的)Haskell 教程。并且正在尝试直角三角形示例: > let triangles = [(
我编写了一个小型 Haskell 程序来打印当前目录中所有文件的 MD5 校验和(递归搜索)。基本上是 md5deep 的 Haskell 版本.一切都很好,除非当前目录有大量文件,在这种情况下我会收
我通常听说生产代码应该避免使用惰性 I/O。我的问题是,为什么?除了闲逛之外,还可以使用 Lazy I/O 吗?是什么让替代方案(例如枚举器)更好? 最佳答案 惰性 IO 存在的问题是,释放您所获取的
我注意到 Scala 提供了lazy vals。但我不明白他们在做什么。 scala> val x = 15 x: Int = 15 scala> lazy val y = 13 y: Int =
我目前正在尝试将 XML 文件的内容读入 Map Int (Map Int String) 并且它工作得很好(使用 HaXml)。但是,我对程序的内存消耗不满意,问题似乎出在垃圾回收上。 这是我用来读
lazy val seq: Unit = { println("a") seq } 我们可以尾递归调用上面的表达式吗? 最佳答案 我想你可以从这个意义上说,是的 - 评估时,seq将递归评估自
在以下示例中: def maybeTwice2(b: Boolean, i: => Int) = { lazy val j = i if (b) j+j else 0 } 为什么当我这样调用它
我的一个项目使用了混合的Scala功能,这些功能似乎不能很好地融合在一起: 类型类和无形自动类型类实例派生 隐式转换(向具有类型类实例的类型添加有用的语法) 默认参数,因为即使它们通常是一件坏事,但在
我有一个应用程序,涉及一个数组集合,这些数组可能非常大(索引最大为 int 的最大值),但它们是惰性 - 它们内容是动态计算的,并且在请求之前实际上是不知道的。数组也是不可变的 - 每个数组的每个元素
最近我开始使用 spring 中的惰性初始化功能很多。所以我一直在徘徊——懒惰地初始化你的 bean 有什么实际的缺点吗?如果不是 - 为什么不是懒惰的默认行为? 最佳答案 主要的“缺点”是不能立即发
我有一个通过信息亭向访问者显示的网站。人们可以与之互动。但是,由于该网站不是本地托管的,而是使用互联网连接 - 页面加载速度很慢。 我想实现某种惰性缓存机制,以便在人们浏览页面时 - 页面和页面引用的
我是否正确理解声明关系急切加载的方法是使用lazy='joined'或lazy='subquery'? “lazy”与“eager”相反——在这种情况下使用“lazy”关键字来表示急切加载,这是一个历
我想抓取 对之间任何值的内容标签。 This is one block of text This is another one 我想出的正则表达式是 /(.*)/m 虽然,它看起来很贪心,并
考虑以下几点: z = [{"x" => 5}, 2, 3].lazy.map{ |i| i} #=> #5}, 2, 3]>:map> z.first #=> {"x"=>5} 当我尝试将 z 转换
因此我有一个条件语句: if($boolean && expensiveOperation()){ ...} PHP 是否具有惰性 bool 值评估,即它是否会检查 $boolean 并且如果它为 f
我在 Scala 上有问题。我用 @transient lazy val 序列化了一个类的实例 field 。然后我反序列化它,该字段被分配null .我期待反序列化后的惰性评估。我该怎么办? 以下是
我编写了以下函数,我认为该函数应该以原子方式执行 IO(只要其他人都使用相同的 MVar)。 atomicIO :: MVar () -> IO a -> IO a atomicIO mvar io
我是一名优秀的程序员,十分优秀!