clojure - 延迟分区-6ren

clojure - 延迟分区

转载作者：行者123 更新时间：2023-12-04 06:37:24

25

4

我有一个项目来源，并希望单独处理具有相同关键功能值的项目的运行。在 Python 中，这看起来像

for key_val, part in itertools.groupby(src, key_fn):
  process(key_val, part)

这个解决方案是完全懒惰的，即如果 process不尝试存储整个 part 的内容，代码将在 O(1) 中运行内存。

Clojure 解决方案

(doseq [part (partition-by key-fn src)]
  (process part))

不那么懒惰:它完全实现了每个部分。问题是， src可能有很长的项目具有相同的 key-fn值(value)并意识到它们可能会导致 OOM。

我找到了 this discussion据称以下功能(为了帖子内部的命名一致性略有修改)足够懒惰

(defn lazy-partition-by [key-fn coll]
  (lazy-seq
    (when-let [s (seq coll)]
      (let [fst (first s)
            fv (key-fn fst)
            part (lazy-seq (cons fst (take-while #(= fv (key-fn %)) (next s))))]
        (cons part (lazy-partition-by key-fn (drop-while #(= fv (key-fn %)) s)))))))

但是，我不明白为什么它不会受到 OOM 的影响:cons 单元的两个部分都引用了 s , 所以虽然 process消费 part , s正在实现但没有垃圾收集。只有当 drop-while 才有资格进行 GC遍历 part .

所以，我的问题是:

我对 lazy-partition-by 是否正确？还不够懒？

是否有 partition-by 的实现有保证的内存要求，前提是我不持有对以前 part 的任何引用到我开始意识到下一个的时候？

编辑:
这是 Haskell 中一个足够懒惰的实现:

lazyPartitionBy :: Eq b => (a -> b) -> [a] -> [[a]]
lazyPartitionBy _ [] = []
lazyPartitionBy keyFn xl@(x:_) = let
  fv = keyFn x
  (part, rest) = span ((== fv) . keyFn) xl
  in part : lazyPartitionBy keyFn rest

从 span implementation可以看出, part和 rest隐式共享状态。我想知道这种方法是否可以翻译成Clojure。

最佳答案

尽管这个问题引起了关于语言设计的非常有趣的思考，但实际问题是您希望在常量内存中的分区上进行处理。实际问题可以通过一点点反演来解决。

不是处理返回分区序列的函数的结果，而是将处理函数传递给生成分区的函数。然后，您可以以包含的方式控制状态。

首先，我们将提供一种将序列消耗与尾部状态融合在一起的方法。

(defn fuse [coll wick]
  (lazy-seq 
   (when-let [s (seq coll)]
     (swap! wick rest)
     (cons (first s) (fuse (rest s) wick)))))

然后是 partition-by的修改版

(defn process-partition-by [processfn keyfn coll] 
  (lazy-seq
    (when (seq coll)
      (let [tail (atom (cons nil coll))
            s (fuse coll tail)
            fst (first s)
            fv (keyfn fst)
            pred #(= fv (keyfn %))
            part (take-while pred s)
            more (lazy-seq (drop-while pred @tail))] 
        (cons (processfn part) 
              (process-partition-by processfn keyfn more))))))

注意:对于 O(1) 内存消耗 processfn一定是个热心的消费者! 所以虽然 (process-partition-by identity key-fn coll)与 (partition-by key-fn coll) 相同, 因为 identity不消耗分区，内存消耗不是恒定的。

测试

(defn heavy-seq [] 
  ;adjust payload for your JVM so only a few fit in memory
  (let [payload (fn [] (long-array 20000000))]
   (map #(vector % (payload)) (iterate inc 0))))

(defn my-process [s] (reduce + (map first s)))

(defn test1 []
  (doseq [part (partition-by #(quot (first %) 10) (take 50 (heavy-seq)))]
    (my-process part)))

(defn test2 []
  (process-partition-by 
    my-process #(quot (first %) 20) (take 200 (heavy-seq))))

so.core=> (test1)
OutOfMemoryError Java heap space  [trace missing]

so.core=> (test2)
(190 590 990 1390 1790 2190 2590 2990 3390 3790)

关于clojure - 延迟分区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24738261/

25

4

0

文章推荐： actionscript-3 - 如何将透明图形绘制到透明 BitmapData 上？

文章推荐： google-apps-script - Google Apps Script - 根据单元格值查找行号

文章推荐： asp.net - 如何在弹出窗口中打开aspx网页

clojure - Clojure 为什么命名为 Clojure
为什么该语言的名称是“Clojure”？我用谷歌搜索了一下，在#clojure 中询问。到目前为止，还没有运气。最佳答案 Rich Hickey(他是 Clojure 的设计者)对此的评论是 wi
clojure - 从 Clojure 应用程序转换到最新的 Clojure 时遇到问题
我不明白为什么升级后会出现以下编译错误: Compiling addr-verify.core Exception in thread "main" java.lang.NoClassDefFound
clojure - 如何防止 Clojure 异常 : clojure. lang.LazySeq cannot be cast to clojure.lang.IFn
我试图将从映射操作返回的(惰性)序列传递给另一个映射操作，以便我可以在第一个序列中查找元素。代码从文本文件(以行/列格式)解析一些足球装置，清理它，然后返回一张 map 。这是代码: (ns fix
clojure - 在 Clojure 中过滤集合 clojure.set/select 与 clojure.core/filter
我想过滤一组，例如: (filter-set even? #{1 2 3 4 5}) ; => #{2 4} 如果我使用clojure.core/filter我得到一个不是集合的seq: (filte
clojure - clojure 中具有相同名称的多个函数
(defn hi[](+ 5 6)) (hi) (defn hi[](+ 6 7)) (hi) 你好，我是 clojure 的新手。如上所述，我编写了两个具有相同名称的函数。我们可以在 cloj
clojure - 十进制到二进制 Clojure
我按照这个伪代码递归地将十进制转换为二进制。 findBinary(decimal) if (decimal == 0) binary = 0 else binar
clojure - Clojure 中的浮点精度
我正在尝试学习 Clojure 并尝试定义这个简单的函数: user=> (defn triple [arg] (* 3 arg)) #'user/triple user=> (triple 1) 3
clojure - Clojure 中的宏 -> ->>
是->和 ->>宏只是为了使代码更具可读性还是它们还有其他特定功能？最佳答案线程优先( -> )和线程最后( ->> )是为了使代码更具可读性。但这已经很重要了! 它允许取消嵌套函数调用(示例取自
clojure - Clojure 中的线程安全流行？
我在 http://www.learningclojure.com/2010/11/yet-another-way-to-write-factorial.html 上找到了这个代码，但我不明白 pop
clojure - Clojure 序列推导式中是否存在变量？
我正在阅读 Programming Clojure 2nd edition，在第 49 页它涵盖了 Clojure 的 for 循环结构，它说它实际上是一个序列理解。作者建议使用以下代码: (def
clojure - Clojure 中的双端队列
Clojure 中有双端队列吗？我的印象是 Clojure 的 PersistentQueue 是单端的(我错了吗？)。我需要能够从队列的任一端删除(即“pop”)和“peek”数据。我所说的双端队列
clojure - clojure 有标识符宏吗？
换句话说，有没有办法在看起来不像 (MACRO arg* ...) 的表单上触发宏扩展？ . 举一个假设的例子: (defmacro my-var (do (printf "Using my-va
clojure - Clojure 中最简单的惰性函数
我很难理解懒惰。有人能帮我理解为什么我下面的函数不是懒惰的吗 (defn my-red ([f coll] (my-red f (first coll) (rest coll) ))
clojure - Clojure 中函数参数排序的经验法则
在 Clojure 核心中决定参数函数顺序的规则是什么(如果有的话)？类似 map 的函数和 filter期望数据结构作为最后一个争论。类似 assoc 的函数和 select-keys期待数据
clojure - Clojure 中的完成函数有什么作用？
我在 clojuredocs 上遇到过 completing 函数，但目前没有文档。你能提供一些例子吗？最佳答案 completing 用于扩充可能没有具有一元“完成”元数的一元重载的二元归约函数
clojure - Clojure 中记录的模式匹配
这个现在支持吗？我能找到的唯一信息是来自维基的示例( https://github.com/clojure/core.match/wiki/Deftype-and-defrecord-matching
clojure - clojure 代码示例中的这个函数定义有什么作用？
我正在关注“Clojure in Action”，对此我感到困惑: (defn with-log [function-to-call log-statement ] (fn [& args
clojure - Clojure 中函数名称中的箭头
对于下面的代码，箭头是宏还是函数名称中的简单字符？ (来自 here) (defn file->map [file] ;; TODO ) 最佳答案箭头是函数名称的一部分。有一个函数定义，不是
clojure - clojure 是否具有完全包含的范围功能？
Clojure 的 range函数包含来自 start独家在end (如果提供)。核心库中是否有一个函数可以提供完全包含(开始和结束)的范围？我发现在某些情况下必须调整最终值的代码 - 例如向下而不
clojure - Clojure 中的动态记录
当我尝试从 REPL 运行以下代码时(使用动态记录): (defrecord (symbol "rec2") (vec (map symbol ["f1" "f2"]))) 我收到错误 Compile

首页

博学

6Ren·AI

商城

clojure - 延迟分区