sorting - `take n (sort xs)` ("sorted prefix") 问题的内存高效算法-6ren

sorting - `take n (sort xs)` ("sorted prefix") 问题的内存高效算法

转载作者：行者123 更新时间：2023-12-04 11:14:50

25

4

我想从惰性列表中取出 n 个最大的元素。

我听说在 Data.List.sort 中实现的合并排序是惰性的，它不会产生不必要的元素。就比较而言，这可能是正确的，但在内存使用方面肯定不是这样。下面的程序说明了这个问题:

{-# LANGUAGE ScopedTypeVariables #-}

module Main where

import qualified Data.Heap as Heap
import qualified Data.List as List

import System.Random.MWC
import qualified Data.Vector.Unboxed as Vec

import System.Environment

limitSortL n xs = take n (List.sort xs)
limitSortH n xs = List.unfoldr Heap.uncons (List.foldl' (\ acc x -> Heap.take n (Heap.insert x acc) ) Heap.empty xs) 

main = do
  st <- create
  rxs :: [Int] <- Vec.toList `fmap` uniformVector st (10^7)

  args <- getArgs
  case args of
    ["LIST"] -> print (limitSortL 20 rxs)
    ["HEAP"] -> print (limitSortH 20 rxs)

  return ()

运行:

数据列表:

./lazyTest LIST +RTS -s
[-9223371438221280004,-9223369283422017686,-9223368296903201811,-9223365203042113783,-9223364809100004863,-9223363058932210878,-9223362160334234021,-9223359019266180408,-9223358851531436915,-9223345045262962114,-9223343191568060219,-9223342956514809662,-9223341125508040302,-9223340661319591967,-9223337771462470186,-9223336010230770808,- 9223331570472117335,-9223329558935830150,-9223329536207787831,-9223328937489459283]
在堆中分配了 2,059,921,192 个字节
GC 期间复制了 2,248,105,704 个字节
552,350,688 字节最大驻留(5 个样本)
3,390,456 字节最大斜率
1168 MB 总内存正在使用(0 MB 由于碎片丢失)

第 0 代:3772 次收集，0 次并行，1.44s，1.48s 已过
第 1 代:5 次收集，0 次并行，0.90s，1.13s 已过

初始化时间 0.00s(经过 0.00s)
MUT 时间 0.82s(经过 0.84s)
GC时间2.34s(经过2.61s)
退出时间 0.00s(经过 0.00s)
总时间 3.16s(经过 3.45s)

%GC 时间 74.1%(经过 75.7%)

分配速率 2,522,515,156 字节/MUT 秒

生产力占总用户的 25.9%，占总使用时间的 23.7%

数据堆:

./lazyTest 堆 +RTS -s
[-9223371438221280004,-9223369283422017686,-9223368296903201811,-9223365203042113783,-9223364809100004863,-9223363058932210878,-9223362160334234021,-9223359019266180408,-9223358851531436915,-9223345045262962114,-9223343191568060219,-9223342956514809662,-9223341125508040302,-9223340661319591967,-9223337771462470186,-9223336010230770808,- 9223331570472117335,-9223329558935830150,-9223329536207787831,-9223328937489459283]
在堆中分配了 177,559,536,928 个字节
GC 期间复制了 237,093,320 个字节
80,031,376 字节最大驻留(2 个样本)
745,368 字节最大斜率
78 MB 总内存在使用(0 MB 由于碎片丢失)

第 0 代:338539 个集合，0 个并行，1.24s，1.31s 已过
第 1 代:2 次收集，0 次并行，0.00s，0.00s 已过

初始化时间 0.00s(经过 0.00s)
MUT时间35.24s(经过35.46s)
GC时间1.24s(经过1.31s)
退出时间 0.00s(经过 0.00s)
总时间 36.48s(经过 36.77s)

%GC 时间 3.4%(经过 3.6%)

分配速率 5,038,907,812 字节/MUT 秒

总用户的 96.6%，总使用时间的 95.8%

显然 limitSortL 快得多，但它也非常消耗内存。在较大的列表中，它达到了 RAM 大小。

有没有更快的算法来解决这个问题，而且不是那种内存不足的问题？

编辑 :澄清:我使用来自 heaps 包的 Data.Heap，我没有尝试 heap 包。

最佳答案

所以，我实际上已经设法解决了这个问题。这个想法是抛弃花哨的数据结构并手工工作;-)
本质上，我们将输入列表分成 block ，对它们进行排序，然后折叠 [[Int]]列表，选择 n每一步的最小元素。
棘手的部分是以适当的方式将累加器与排序 block 合并。我们必须使用 seq否则懒惰会咬你，结果仍然需要大量的内存来计算。此外，我将合并与 take n ，只是为了优化更多的东西。这是整个程序，以及以前的尝试:

{-# LANGUAGE ScopedTypeVariables, PackageImports #-}     
module Main where

import qualified Data.List as List
import qualified Data.List.Split as Split
import qualified "heaps" Data.Heap as Heap -- qualified import from "heaps" package

import System.Random.MWC
import qualified Data.Vector.Unboxed as Vec

import System.Environment

limitSortL n xs = take n (List.sort xs)
limitSortH n xs = List.unfoldr Heap.uncons (List.foldl' (\ acc x -> Heap.take n (Heap.insert x acc) ) Heap.empty xs)
takeSortMerge n inp = List.foldl' 
                        (\acc lst -> (merge n acc (List.sort lst))) 
                        [] (Split.splitEvery n inp)
    where
     merge 0 _ _ = []
     merge _ [] xs = xs
     merge _ ys [] = ys
     merge f (x:xs) (y:ys) | x < y = let tail = merge (f-1) xs (y:ys) in tail `seq` (x:tail) 
                           | otherwise = let tail = merge (f-1) (x:xs) ys in tail `seq` (y:tail)


main = do
  st <- create

  let n1 = 10^7
      n2 = 20

  rxs :: [Int] <- Vec.toList `fmap` uniformVector st (n1)

  args <- getArgs

  case args of
    ["LIST"] ->  print (limitSortL n2 rxs)
    ["HEAP"] ->  print (limitSortH n2 rxs)
    ["MERGE"] -> print (takeSortMerge n2 rxs)
    _ -> putStrLn "Nothing..."

  return ()

运行时性能、内存消耗、GC时间:

列表 3.96s 1168 MB 75 %
堆 35.29s 78 MB 3.6 %
合并 1.00s 78 MB 3.0 %
just rxs 0.21s 78 MB 0.0 % - 只是评估随机向量

关于sorting - `take n (sort xs)` ("sorted prefix") 问题的内存高效算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5949871/

25

4

0

文章推荐： rdf - 使用 SPARQL 通过字符串名称检索 DBpedia 资源

文章推荐： apache - RewriteRule 导致页面重新加载两次

文章推荐： r - 使用 knit_expand() 从模板中提取 R 代码

文章推荐： c - 在哪里可以找到 C 编程引用？

Haskell - 如何将最大值 (xs++ map (x+) xs) 转换为 max (最大 xs) (x + 最大 xs)
“用 Haskell 进行函数式思考”中的练习之一是使用融合定律使程序更加高效。我在尝试复制答案时遇到了一些麻烦。部分计算要求您将 maximum (xs++ map (x+) xs) 转换为 ma
XML 规范 : Union of xs:date, xs :gYearMonth, xs :gYear?
我正在使用 XML 规范，它定义了一个“类型”“日期”，即: date: A union of xs:date, xs:gYearMonth, xs:gYear 以上数据类型来自W3C XML Sch
javascript - Bootstrap 网格 : Is this correct to replace col-xs-6 + col-xs-6 with col-xs-12+ (col-xs-6 & display:none)?
我很好奇替换是否正确 ... ... 与 ... ... 用javascript？我所需要的只是隐藏第二个 div 并正确地通过 javascript 显示第一个 div 的 100%。实际完成的操
coq - 在 Coq 中证明 `forall x xs ys, subseq (x::xs) ys -> subseq xs ys`
我有以下定义 Inductive subseq : list nat -> list nat -> Prop := | empty_subseq : subseq [] [] | add_right
xsd - xs :choice inside xs:all
可以在 xs:sequence 中使用 xs:choice 元素， ... 但不在 xs:all 内。这是为什么？这在解析 xml 时会产生一些歧义吗？最佳答案这只能由 XML Sch
java - xs :any in xs:all tag for xsd
我有一个场景，我需要一个 xsd，用于验证一些没有共同点的 xml。例如， xml1: .. .. .. xml2: .. .. 我需要一个通用的 xsd，以便验证具有“require
java - JAX-WS (JAXB) : How to marshall java. util.Date 到 xs :anyType as xs:date instead of xs:dateTime?
我必须与 WSDL 包含以下复杂类型的 Web 服务通信:
org.geotools.xs.XS.getInstance()方法的使用及代码示例
本文整理了Java中org.geotools.xs.XS.getInstance()方法的一些代码示例，展示了XS.getInstance()的具体用法。这些代码示例主要来源于Github/Stack
hana-xs - HANA XS 中的动态 URL
我正在尝试使用 HANA XS Javascript 实现简单的产品目录。目录的页面应该在服务器端呈现。如何根据从 HANA 数据库读取的数据处理“动态”URL？例如，http:///myapp/s
java - 无法比较 xs :string to xs:integer
当前在 Talend 上运行代码并抛出此错误 net.sf.saxon.trans.XPathException: Cannot compare xs:string to xs:integer at
haskell - 如果我使用 "[xs]"而不是 "xs"为什么这个函数不起作用？
split :: [a] -> Int -> ([a], [a]) split [xs] n = (take n [xs], drop n [xs]) 如果我将变量指定为 xs 而不是 [xs
c - XS:将外部库的函数传递给 Perl XS 回调
免责声明:在 perlmonks 询问. 我希望我正确地描述和描述了我的问题......在 XS 中，我试图将回调发送到外部库的函数，其中回调具有 Perl 特定的函数。 XSUB 作为函数指针传递给
xml - 为什么我不能放一个 xs :all inside a xs:sequence?
我对 XML Schema 还是有点陌生，我正在尝试在 Relax NG Compact 中做一些看起来像这样的事情: test = element test{ element A {text},
xml - 有没有办法结合 semantics with semantics?
我有一个类似于以下的文档类型: abc true abc 以下文档在语义上与前面的文档相同: true abc
XML 架构 xs :choice inside xs:sequence
我正在尝试使用 xs:choice 元素，但是在验证 XSD 文件时，我收到一个错误，我认为它与 xs:choice 元素有关。我已经搜索了很多这个问题，找到了一些类似的问题，但没有一个给我我正在寻找
xsd - 包含 and ? 的复杂类型的 XML 模式
我想定义一个复杂类型，其中包含可能存在或不存在的元素，并且还允许其他未定义的元素，所以我有这样的东西: 我不想使用强制执行订单所以我想改变至但随后不允许。有
haskell - 通知 Haskell `(Reverse (Reverse xs)) ~ xs`
如果 Reverse :: [k] -> [k]是一个类型族，那么 Haskell 无法判断 (Reverse (Reverse xs)) ~ xs .有没有办法让类型系统知道这一点而无需任何运行时成
XSD:xs:integer 和 xs:int 之间有什么区别？
我已经开始创建 XSD，并在 xs:integer 和 xs:int 的几个示例中找到了。 xs:integer 和 xs:int 之间有什么区别？我什么时候应该使用xs:integer？我什么时候应
java - 如何获取类型 ="xs:date"而不是类型 ="xs:dateTime"
我正在使用 Apache CXF 从 java 类创建自下而上的 Web 服务在 java 类中，我将 java.util.Date 和 java.util.Calendar 用于两个字段当 WS
css - Bootstrap 偏移量 xs 和可见 xs 未按预期工作
我正在使用 Bootstrap 3 设计一个网站。我遇到过网格系统没有按预期工作的情况。我试图将类设置为 visible-xs-6 col-xs-offset-3 最后一行中的 HTML5 Logo

首页

博学

6Ren·AI

商城

sorting - `take n (sort xs)` ("sorted prefix") 问题的内存高效算法