haskell - 基准过滤器和分区-6ren

haskell - 基准过滤器和分区

转载作者：行者123 更新时间：2023-12-02 08:06:01

26

4

我正在测试列表的 partition 函数的性能，我认为得到了一些奇怪的结果。

我们有这个partition p xs == (filter p xs, filter (not .p) xs)，但我们选择了第一个实现，因为它只对列表执行一次遍历。然而，我得到的结果表明，使用两次遍历的实现可能会更好。

这是显示我所看到内容的最小代码

import Criterion.Main
import System.Random
import Data.List (partition)

mypartition :: (a -> Bool) -> [a] -> ([a],[a])
mypartition p l = (filter p l, filter (not . p) l)



randList :: RandomGen g => g -> Integer -> [Integer]
randList gen 0 = []
randList gen n = x:xs
  where
    (x, gen') = random gen
    xs = randList gen' (n - 1)

main = do
  gen <- getStdGen
  let arg10000000 = randList gen 10000000
  defaultMain [
      bgroup "filters -- split list in half " [
        bench "partition100"         $ nf (partition (>= 50)) arg10000000
      , bench "mypartition100"       $ nf (mypartition (>= 50)) arg10000000
      ]
      ]

我使用 -O 和不使用它都运行了测试，两次我都发现双重遍历更好。

我正在使用 ghc-7.10.3 和 criterion-1.1.1.0

我的问题是:

这是预期的吗？
我是否正确使用了 Criterion？我知道惰性可能很棘手，并且如果使用了元组的两个元素，(filter p xs, filter (not .p) xs) 只会进行两次遍历。
这是否与 Haskell 中处理列表的方式有关？

非常感谢!

最佳答案

这个问题没有非黑即白的答案。要剖析这个问题，请考虑以下代码:

import Control.DeepSeq
import Data.List (partition)
import System.Environment (getArgs)


mypartition :: (a -> Bool) -> [a] -> ([a],[a])
mypartition p l = (filter p l, filter (not . p) l)


main :: IO ()
main = do
  let cnt = 10000000
      xs = take cnt $ concat $ repeat [1 .. 100 :: Int]
  args <- getArgs
  putStrLn $ unwords $ "Args:" : args
  case args of
    [percent, fun]
      -> let p = (read percent >=)
         in case fun of
           "partition"      ->              print $ rnf $ partition   p xs
           "mypartition"    ->              print $ rnf $ mypartition p xs
           "partition-ds"   -> deepseq xs $ print $ rnf $ partition   p xs
           "mypartition-ds" -> deepseq xs $ print $ rnf $ mypartition p xs
           _ -> err
    _ -> err
  where
    err = putStrLn "Sorry, I do not understand."

我不使用 Criterion 来更好地控制评估顺序。为了获取计时，我使用 +RTS -s 运行时选项。不同的测试用例使用不同的命令行选项执行。第一个命令行选项定义谓词保存的数据百分比。第二个命令行选项在不同的测试之间进行选择。

测试区分两种情况:

数据是延迟生成的(第二个参数 partition 或 mypartition)。
数据已在内存中完全评估(第二个参数 partition-ds 或 mypartition-ds)。

分区的结果始终从左到右计算，即从包含谓词所适用的所有元素的列表开始。

在情况 1 中，partition 的优点是，在生成输入列表的所有元素之前，第一个结果列表的元素就会被丢弃。如果谓词匹配许多元素，即第一个命令行参数很大，则情况 1 特别好。

在情况 2 中，partition 无法发挥此优势，因为所有元素都已在内存中。

对于mypartition，在任何情况下，在计算第一个结果列表后，所有元素都会保存在内存中，因为再次需要它们来计算第二个结果列表。因此，这两种情况没有太大区别。

看来，使用的内存越多，垃圾收集就越困难。因此，如果谓词匹配许多元素并且使用惰性变体，则 partition 非常适合。

相反，如果谓词不匹配许多元素或所有元素都已在内存中，则 mypartition 性能更好，因为与 partition 相比，它的递归不处理对>.

Stackoverflow 问题“Irrefutable pattern does not leak memory in recursion, but why? ” 可能会提供有关 partition 递归中对的处理的更多见解。

关于haskell - 基准过滤器和分区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38671397/

26

4

0

文章推荐： java - 奇怪的错误+如何使这段代码更高效？

文章推荐： azure - 如何创建计划 webJob 以使用 CRON 表达式运行 exe

文章推荐： java - 使用 Ruby 生成 Java 项目

haskell - Haskell 和类 Haskell 语言之间的类型声明语法差异
在 Haskell 中，类型声明使用双冒号，即 (::)，如 not::Bool -> Bool。但是在许多语法与 Haskell 类似的语言中，例如榆树、 Agda 、他们使用单个冒号(:)来声明
haskell - 在模板 haskell 中运行模板 haskell
insertST :: StateDecoder -> SomeState -> Update SomeState SomeThing insertST stDecoder st = ... Stat
haskell - 在 Haskell ("second order Haskell"中生成 Haskell 类型的工具？
如果这个问题有点含糊，请提前道歉。这是一些周末白日梦的结果。借助 Haskell 出色的类型系统，将数学(尤其是代数)结构表达为类型类是非常令人愉快的。我的意思是，看看 numeric-prelud
haskell - 如何仅使用 Haskell 无休止地运行 Haskell 程序？
我有需要每 5 分钟执行一次的小程序。目前，我有执行该任务的 shell 脚本，但我想通过 CLI 中的键为用户提供无需其他脚本即可运行它的能力。实现这一目标的最佳方法是什么？最佳答案我想你会
haskell - 需要以真实世界 Haskell 风格解决哪些 Haskell 主题？
RWH 面世已经有一段时间了(将近 3 年)。在在线跟踪这本书的渐进式写作之后，我渴望获得我的副本(我认为这是写书的最佳方式之一。)在所有相当学术性的论文中，作为一个 haskell 学生，读起来多么
haskell - 用 Haskell 编写 Haskell 解释器
一个经典的编程练习是用 Lisp/Scheme 编写一个 Lisp/Scheme 解释器。可以利用完整语言的力量来为该语言的子集生成解释器。 Haskell 有类似的练习吗？我想使用 Haskell
haskell - Haskell 中的仿函数定义及其在 Learn You a Haskell 中的解释令人困惑
以下摘自' Learn You a Haskell ' 表示 f 在函数中用作“值的类型”。这是什么意思？即“值的类型”是什么意思？ Int 是“值的类型”，对吗？但是 Maybe 不是“值的类型”
haskell - haskell 中有包含字符串和列表的类型吗？
现在我正在尝试创建一个基本函数，用于删除句子中的所有空格或逗号。 stringToIntList :: [Char] -> [Char] stringToIntList inpt = [ a | a
haskell - 案例中的模式匹配，Haskell
我是 Haskell 的新手，对模式匹配有疑问。这是代码的高度简化版本: data Value = MyBool Bool | MyInt Integer codeDuplicate1 :: Valu
haskell - Haskell 中的这个仿函数是什么意思？
如何解释这个表达式？ :t (+) (+3) (*100) 自和具有相同的优先级并且是左结合的。我认为这与 ((+) (+3)) (*100) 相同.但是，我不知道它的作用。在 Learn
haskell - Haskell 如何计算表达式
这怎么行 > (* 30) 4 120 但这不是 > * 30 40 error: parse error on input ‘*’ 最佳答案 (* 30) 是一个 section，它仍然将 * 视为
haskell - 删除满足谓词的第一个元素(Haskell)
我想创建一个函数，删除满足第二个参数中给定谓词的第一个元素。像这样: removeFirst "abab" ( 'b') = "abab" removeFirst [1,2,3,4] even =
haskell - Haskell 中的内存
Context : def fib(n): if n aand returns a memoized version of the same function. The trick is t
haskell - 惰性评估和严格评估 Haskell
我明白惰性求值是什么，它是如何工作的以及它有什么优势，但是你能解释一下 Haskell 中什么是严格求值吗？我似乎找不到太多关于它的信息，因为惰性评估是最著名的。他们各自的优势是什么。什么时候真正使
haskell - Haskell 中的反向函数行为
digits :: Int -> [Int] digits n = reverse (x) where x | n digits 1234 = [3,1,2,4]
haskell - Haskell 是否支持类型类的匿名实例？
我在 F# 中有以下代码(来自一本书) open System.Collections.Generic type Table = abstract Item : 'T -> 'U with ge
haskell - 使用需要多个输入的过滤器 - Haskell
我对 Haskell 比较陌生，过去几周一直在尝试学习它，但一直停留在过滤器和谓词上，我希望能得到帮助以帮助理解。我遇到了一个问题，我有一个元组列表。每个元组包含一个 (songName, song
haskell - 或采用两个值参数 haskell
我是 haskell 的初学者，我试图为埃拉托色尼筛法定义一个简单的函数，但它说错误: • Couldn't match expected type ‘Bool -> Bool’
haskell - Haskell 中的读取函数
我是 Haskell 语言的新手，我在使用 read 函数时遇到了一些问题。准确地说，我的理解是: read "8.2" + 3.8 应该返回 12.0，因为我们希望返回与第二个成员相同的类型。我真正
haskell - Haskell 声明中的感叹号是什么意思？
当我尝试使用真实项目来驱动它来学习 Haskell 时，我遇到了以下定义。我不明白每个参数前面的感叹号是什么意思，我的书上好像也没有提到。 data MidiMessage = MidiMessage

首页

博学

6Ren·AI

商城

haskell - 基准过滤器和分区