clojure pmap - 为什么我不使用所有核心？-6ren

clojure pmap - 为什么我不使用所有核心？

转载作者：行者123 更新时间：2023-12-02 15:35:13

24

4

我正在尝试使用 clojure pantomime 库从大量 tif 文档(以及其他文档)中提取/ocr 文本。

我的计划是使用 pmap 将映射应用于一系列输入数据(来自 postgres 数据库)，然后使用 tika/tesseract OCR 输出更新同一 postgres 数据库。这一直工作正常，但是我注意到 htop 中许多核心有时处于空闲状态。

有没有办法解决这个问题，我可以采取什么步骤来确定为什么这可能会在某个地方阻塞？所有处理都发生在单个 tif 文件上，并且每个线程完全互斥。

其他信息:

一些 tika/tesseract 进程需要 3 秒，其他进程最多需要 90 秒。一般来说，tika 严重依赖 CPU。根据 htop，我有足够的可用内存。
postgres 在 session 管理中没有锁定问题，所以我认为这不会阻碍我。
也许 future 的某个地方正在等待取消引用？怎么知道在哪里？

任何提示表示赞赏，谢谢。下面添加了代码。

(defn parse-a-path [{:keys [row_id, file_path]}]
      (try
        (let [
              start        (System/currentTimeMillis)
              mime_type    (pm/mime-type-of file_path)
              file_content (-> file_path (extract/parse) :text)
              language     (pl/detect-language file_content)
              ]
          {:mime_type   mime_type
          :file_content file_content
          :language     language
          :row_id       row_id
          :parse_time_in_seconds   (float (/ ( - (System/currentTimeMillis) start) 100))
          :record_status "doc parsed"})))


(defn fetch-all-batch []
      (t/info (str "Fetching lazy seq. all rows for batch.") )
      (jdbc/query (db-connection)
                  ["select
                   row_id,
                   file_path ,
                   file_extension
                   from the_table" ]))


(defn update-a-row [{:keys [row_id, file_path, file_extension] :as all-keys}]
      (let [parse-out (parse-a-path all-keys )]
        (try
          (doall
            (jdbc/execute!
              (db-connection)
              ["update the_table
               set
               record_last_updated        = current_timestamp ,
               file_content          = ?                 ,
               mime_type             = ?                 ,
               language              = ?                 ,
               parse_time_in_seconds = ?                 ,
               record_status         = ?
               where row_id = ? "
               (:file_content          parse-out) ,
               (:mime_type             parse-out) ,
               (:language              parse-out) ,
               (:parse_time_in_seconds parse-out) ,
               (:record_status         parse-out) ,
               row_id ])
            (t/debug (str "updated row_id " (:row_id parse-out) " (" file_extension ") "
                          " in " (:parse_time_in_seconds parse-out) " seconds." )))
          (catch  Exception _ ))))

(dorun
  (pmap
    #(try
       (update-a-row %)
       (catch Exception e (t/error (.getNextException e)))
       )
    fetch-all-batch )
  )

最佳答案

pmap 在(+ 2 个核心)批处理上并行运行映射函数，但保留顺序。这意味着如果您有 8 个核心，则将处理一批 10 个项目，但只有在所有 10 个项目都完成后才会开始新批处理。

您可以使用 future、delay 和 deref 的组合来创建自己的代码，这将是很好的学术练习。之后，您可以扔掉代码并开始使用 claypoole库，它有一组抽象，涵盖了 future 的大部分用途。

对于这种特定情况，请使用其无序 pmap 或 pfor 实现(upmap 和 upfor)，这做与 pmap 完全相同的事情，但没有顺序；当批处理中的任何一件元素完成后，就会立即拾取新元素。

在 IO 是主要瓶颈的情况下，或者工作项之间的处理时间差异很大的情况下，并行化 map 或 for 操作是最好的方法。

当然，您应该注意不要依赖任何类型的返回值排序。

  (require '[com.climate.claypoole :as cp])

  (cp/upmap (cp/ncpus)
    #(try
       (update-a-row %)
       (catch Exception e (t/error (.getNextException e)))
       )
    fetch-all-batch )

关于clojure pmap - 为什么我不使用所有核心？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36828918/

24

4

0

文章推荐：程序集跳转/分支/查找表而不是大量的 cmp/je？

文章推荐： html - 单选按钮未水平排列

文章推荐： shell - 如何测试 Bash 中是否存在进程？

文章推荐： sql-server - SQL Server 代理作业运行缓慢

clojure - Clojure 为什么命名为 Clojure
为什么该语言的名称是“Clojure”？我用谷歌搜索了一下，在#clojure 中询问。到目前为止，还没有运气。最佳答案 Rich Hickey(他是 Clojure 的设计者)对此的评论是 wi
clojure - 从 Clojure 应用程序转换到最新的 Clojure 时遇到问题
我不明白为什么升级后会出现以下编译错误: Compiling addr-verify.core Exception in thread "main" java.lang.NoClassDefFound
clojure - 如何防止 Clojure 异常 : clojure. lang.LazySeq cannot be cast to clojure.lang.IFn
我试图将从映射操作返回的(惰性)序列传递给另一个映射操作，以便我可以在第一个序列中查找元素。代码从文本文件(以行/列格式)解析一些足球装置，清理它，然后返回一张 map 。这是代码: (ns fix
clojure - 在 Clojure 中过滤集合 clojure.set/select 与 clojure.core/filter
我想过滤一组，例如: (filter-set even? #{1 2 3 4 5}) ; => #{2 4} 如果我使用clojure.core/filter我得到一个不是集合的seq: (filte
clojure - clojure 中具有相同名称的多个函数
(defn hi[](+ 5 6)) (hi) (defn hi[](+ 6 7)) (hi) 你好，我是 clojure 的新手。如上所述，我编写了两个具有相同名称的函数。我们可以在 cloj
clojure - 十进制到二进制 Clojure
我按照这个伪代码递归地将十进制转换为二进制。 findBinary(decimal) if (decimal == 0) binary = 0 else binar
clojure - Clojure 中的浮点精度
我正在尝试学习 Clojure 并尝试定义这个简单的函数: user=> (defn triple [arg] (* 3 arg)) #'user/triple user=> (triple 1) 3
clojure - Clojure 中的宏 -> ->>
是->和 ->>宏只是为了使代码更具可读性还是它们还有其他特定功能？最佳答案线程优先( -> )和线程最后( ->> )是为了使代码更具可读性。但这已经很重要了! 它允许取消嵌套函数调用(示例取自
clojure - Clojure 中的线程安全流行？
我在 http://www.learningclojure.com/2010/11/yet-another-way-to-write-factorial.html 上找到了这个代码，但我不明白 pop
clojure - Clojure 序列推导式中是否存在变量？
我正在阅读 Programming Clojure 2nd edition，在第 49 页它涵盖了 Clojure 的 for 循环结构，它说它实际上是一个序列理解。作者建议使用以下代码: (def
clojure - Clojure 中的双端队列
Clojure 中有双端队列吗？我的印象是 Clojure 的 PersistentQueue 是单端的(我错了吗？)。我需要能够从队列的任一端删除(即“pop”)和“peek”数据。我所说的双端队列
clojure - clojure 有标识符宏吗？
换句话说，有没有办法在看起来不像 (MACRO arg* ...) 的表单上触发宏扩展？ . 举一个假设的例子: (defmacro my-var (do (printf "Using my-va
clojure - Clojure 中最简单的惰性函数
我很难理解懒惰。有人能帮我理解为什么我下面的函数不是懒惰的吗 (defn my-red ([f coll] (my-red f (first coll) (rest coll) ))
clojure - Clojure 中函数参数排序的经验法则
在 Clojure 核心中决定参数函数顺序的规则是什么(如果有的话)？类似 map 的函数和 filter期望数据结构作为最后一个争论。类似 assoc 的函数和 select-keys期待数据
clojure - Clojure 中的完成函数有什么作用？
我在 clojuredocs 上遇到过 completing 函数，但目前没有文档。你能提供一些例子吗？最佳答案 completing 用于扩充可能没有具有一元“完成”元数的一元重载的二元归约函数
clojure - Clojure 中记录的模式匹配
这个现在支持吗？我能找到的唯一信息是来自维基的示例( https://github.com/clojure/core.match/wiki/Deftype-and-defrecord-matching
clojure - clojure 代码示例中的这个函数定义有什么作用？
我正在关注“Clojure in Action”，对此我感到困惑: (defn with-log [function-to-call log-statement ] (fn [& args
clojure - Clojure 中函数名称中的箭头
对于下面的代码，箭头是宏还是函数名称中的简单字符？ (来自 here) (defn file->map [file] ;; TODO ) 最佳答案箭头是函数名称的一部分。有一个函数定义，不是
clojure - clojure 是否具有完全包含的范围功能？
Clojure 的 range函数包含来自 start独家在end (如果提供)。核心库中是否有一个函数可以提供完全包含(开始和结束)的范围？我发现在某些情况下必须调整最终值的代码 - 例如向下而不
clojure - Clojure 中的动态记录
当我尝试从 REPL 运行以下代码时(使用动态记录): (defrecord (symbol "rec2") (vec (map symbol ["f1" "f2"]))) 我收到错误 Compile

首页

博学

6Ren·AI

商城

clojure pmap - 为什么我不使用所有核心？