- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我刚刚读完 Venkat Subramaniam 所著的《JVM 上的并发编程》,在那本书中,作者使用了计算目录树中的文件大小作为示例之一。他展示了不使用并发、使用队列、使用闩锁和使用 scala actor 的实现。在我的系统上,当遍历我的/usr 目录(OSX 10.6.8、Core Duo 2 Ghz、Intel G1 ssd 160GB)时,所有并发实现(队列、闩锁和 scala actor)都能够在 9 秒内运行。
我正在学习 Clojure,并决定使用代理将 Scala actor 版本移植到 Clojure。不幸的是,我的平均时间为 11-12 秒,这比其他人慢得多。在花了几天时间后,我发现下面的代码是罪魁祸首(processFile 是我发送给文件处理代理的函数:
(defn processFile
[fileProcessor collectorAgent ^String fileName]
(let [^File file-obj (File. ^String fileName)
fileTotals (transient {:files 0, :bytes 0})]
(cond
(.isDirectory file-obj)
(do
(doseq [^File dir (.listFiles file-obj) :when (.isDirectory dir)]
(send collectorAgent addFileToProcess (.getPath dir)))
(send collectorAgent tallyResult *agent*)
(reduce (fn [currentTotal newItem] (assoc! currentTotal :files (inc (:files currentTotal))
:bytes (+ (:bytes currentTotal) newItem)))
fileTotals
(map #(.length ^File %) (filter #(.isFile ^File %) (.listFiles file-obj))))
(persistent! fileTotals))
(.isFile file-obj) (do (send collectorAgent tallyResult *agent*) {:files 1, :bytes (.length file-obj)}))))
您会注意到我尝试使用类型提示和 transient 来提高性能,但都无济于事。我用以下代码替换了上面的代码:
(defn processChildren
[children]
(loop [entries children files 0 bytes 0 dirs '()]
(let [^File child (first entries)]
(cond
(not (seq entries)) {:files files, :bytes bytes, :dirs dirs}
(.isFile child) (recur (rest entries) (inc files) (+ bytes (.length child)) dirs)
(.isDirectory child) (recur (rest entries) files bytes (conj dirs child))
:else (recur (rest entries) files bytes dirs)))))
(defn processFile
[fileProcessor collectorAgent ^String fileName]
(let [{files :files, bytes :bytes, dirs :dirs} (processChildren (.listFiles (File. fileName)))]
(doseq [^File dir dirs]
(send collectorAgent addFileToProcess (.getPath dir)))
(send collectorAgent tallyResult *agent*)
{:files files, :bytes bytes}))
该版本的性能与 Scala 版本相当(如果不是更快的话),并且与 Scala 版本中使用的算法几乎相同。我只是假设该算法的函数式方法也同样有效。
所以......这个冗长的问题可以归结为以下几点:为什么第二个版本更快?
我的假设是,虽然第一个版本对目录内容使用 map/filter/reduce 比第二个版本对目录的命令式处理更“实用”,但它的效率要低得多,因为目录的内容正在被处理。迭代了多次。由于文件系统 I/O 很慢,整个程序都会受到影响。
假设我是对的,可以肯定地说任何递归文件系统算法都应该更喜欢命令式方法来提高性能吗?
我是 Clojure 的初学者,所以如果我做了一些愚蠢或不惯用的事情,请随意将我的代码撕成碎片。
最佳答案
我编辑了第一个版本以使其更具可读性。我有一些评论,但没有确实有用的陈述:
您添加了瞬变和类型提示,但没有真正的证据表明是什么导致速度变慢。如果不小心应用这些操作,完全有可能显着减慢速度,因此最好进行分析以找出实际减慢速度的原因。您的选择似乎很合理,但我删除了显然没有效果的类型提示(例如,编译器不需要提示即可知道 (File. ...) 生成 File 对象)。
Clojure(事实上,任何 lisp)都强烈喜欢 some-agent
而不是 someAgent
。前缀语法意味着不必担心 -
会被无知的编译器解析为减法,因此我们可以提供更间隔良好的名称。
您包含了对一堆您根本没有在此处定义的函数的调用,例如tallyResult 和addFileToProcess。想必它们表现良好,因为您在高性能版本中使用它们,但如果不包含它们,其他人就很难研究它并了解什么可以加快速度。
对于 I/O 绑定(bind)操作,请考虑使用 send-off 而不是 send:send 使用有界线程池来避免处理器陷入困境。在这里,这可能并不重要,因为您只使用一个代理并且它会序列化,但将来您会遇到重要的情况。
无论如何,正如所 promise 的,对您的第一个版本进行更清晰的重写:
(defn process-file
[_ collector-agent ^String file-name]
(let [file-obj (File. file-name)
file-totals (transient {:files 0, :bytes 0})]
(cond (.isDirectory file-obj)
(do
(doseq [^File dir (.listFiles file-obj)
:when (.isDirectory dir)]
(send collector-agent addFileToProcess
(.getPath dir)))
(send collector-agent tallyResult *agent*)
(reduce (fn [current-total new-item]
(assoc! current-total
:files (inc (:files current-total))
:bytes (+ (:bytes current-total) new-item)))
file-totals
(map #(.length ^File %)
(filter #(.isFile ^File %)
(.listFiles file-obj)))) -
(persistent! file-totals))
(.isFile file-obj)
(do (send collector-agent tallyResult *agent*)
{:files 1, :bytes (.length file-obj)}))))
编辑:您以错误的方式使用 transient ,丢弃了减少的结果。 (assoc!m k v)
允许修改并返回m
对象,但如果更方便或更高效的话,可能会返回不同的对象。所以你需要更像 (persistent! (reduce ...))
关于clojure - 递归文件系统算法是否应该以命令式方式处理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6606779/
为什么该语言的名称是“Clojure”? 我用谷歌搜索了一下,在#clojure 中询问。到目前为止,还没有运气。 最佳答案 Rich Hickey(他是 Clojure 的设计者)对此的评论是 wi
我不明白为什么升级后会出现以下编译错误: Compiling addr-verify.core Exception in thread "main" java.lang.NoClassDefFound
我试图将从映射操作返回的(惰性)序列传递给另一个映射操作,以便我可以在第一个序列中查找元素。代码从文本文件(以行/列格式)解析一些足球装置,清理它,然后返回一张 map 。 这是代码: (ns fix
我想过滤一组,例如: (filter-set even? #{1 2 3 4 5}) ; => #{2 4} 如果我使用clojure.core/filter我得到一个不是集合的seq: (filte
(defn hi[](+ 5 6)) (hi) (defn hi[](+ 6 7)) (hi) 你好,我是 clojure 的新手。如上所述,我编写了两个具有相同名称的函数。我们可以在 cloj
我按照这个伪代码递归地将十进制转换为二进制。 findBinary(decimal) if (decimal == 0) binary = 0 else binar
我正在尝试学习 Clojure 并尝试定义这个简单的函数: user=> (defn triple [arg] (* 3 arg)) #'user/triple user=> (triple 1) 3
是->和 ->>宏只是为了使代码更具可读性还是它们还有其他特定功能? 最佳答案 线程优先( -> )和线程最后( ->> )是为了使代码更具可读性。但这已经很重要了! 它允许取消嵌套函数调用(示例取自
我在 http://www.learningclojure.com/2010/11/yet-another-way-to-write-factorial.html 上找到了这个代码,但我不明白 pop
我正在阅读 Programming Clojure 2nd edition,在第 49 页它涵盖了 Clojure 的 for 循环结构,它说它实际上是一个序列理解。 作者建议使用以下代码: (def
Clojure 中有双端队列吗?我的印象是 Clojure 的 PersistentQueue 是单端的(我错了吗?)。我需要能够从队列的任一端删除(即“pop”)和“peek”数据。我所说的双端队列
换句话说,有没有办法在看起来不像 (MACRO arg* ...) 的表单上触发宏扩展? . 举一个假设的例子: (defmacro my-var (do (printf "Using my-va
我很难理解懒惰。 有人能帮我理解为什么我下面的函数不是懒惰的吗 (defn my-red ([f coll] (my-red f (first coll) (rest coll) ))
在 Clojure 核心中决定参数函数顺序的规则是什么(如果有的话)? 类似 map 的函数和 filter期望数据结构作为最后一个 争论。 类似 assoc 的函数和 select-keys期待数据
我在 clojuredocs 上遇到过 completing 函数,但目前没有文档。 你能提供一些例子吗? 最佳答案 completing 用于扩充可能没有具有一元“完成”元数的一元重载的二元归约函数
这个现在支持吗?我能找到的唯一信息是来自维基的示例( https://github.com/clojure/core.match/wiki/Deftype-and-defrecord-matching
我正在关注“Clojure in Action”,对此我感到困惑: (defn with-log [function-to-call log-statement ] (fn [& args
对于下面的代码,箭头是宏还是函数名称中的简单字符? (来自 here) (defn file->map [file] ;; TODO ) 最佳答案 箭头是函数名称的一部分。有一个函数定义,不是
Clojure 的 range函数包含来自 start独家在end (如果提供)。核心库中是否有一个函数可以提供完全包含(开始和结束)的范围? 我发现在某些情况下必须调整最终值的代码 - 例如向下而不
当我尝试从 REPL 运行以下代码时(使用动态记录): (defrecord (symbol "rec2") (vec (map symbol ["f1" "f2"]))) 我收到错误 Compile
我是一名优秀的程序员,十分优秀!