Clojure : Group-by too slow (13 million-lines file)-6ren

Clojure : Group-by too slow (13 million-lines file)

转载作者：行者123 更新时间：2023-12-04 14:56:48

25

4

情况

我有一个 1300 万行的 CSV，我想对每个组执行逻辑回归(incanter)。
我的文件就是这样(值只是示例)

ID Max Probability
1  1   0.5 
1  5   0.6
1  10  0.99
2  1   0.1
2  7   0.95

所以我首先用 csv 阅读器阅读了它，一切都很好。

我有这样的事情:

( {"Id" "1", "Max" 1, "Probability" 0.5} {"Id" "1", "Max" 5, "Probability" 0.6} etc.

我想按 Id 对这些值进行分组，如果我没记错的话，大约有 120 万个 Id。 (我用 Pandas 在 Python 中做到了，而且速度非常快)

这是我读取和格式化文件的功能(它适用于较小的数据集):

  (defn read-file
  []
    (let [path (:path-file @config)
          content-csv (take-csv path \,)]
      (->> (group-by :Id content-csv)
           (map (fn [[k v]]
                [k {:x (mapv :Max v) :y (mapv :Probability v)}]))
           (into {}))))

我最终希望有类似的东西来执行逻辑回归(我对此很灵活，不需要 :x 和 :y 的向量，seqs 可以)

{"1" {:x [1 5 10] :y [0.5 0.6 0.99]} "2" {:x [1 7] :y [0.1 0.95]} etc.

问题

我在按分组操作时遇到问题。我在 CSV 的输出上单独尝试了它，当它不会因为 Java 堆空间内存而消失时，这将永远持续下去。
我认为问题出在我的 mapv 上，但这是 group-by。

我想过使用 reduce 或 reduce-kv 但我不知道如何将这些功能用于此类目的。

我不关心 ":x"和 ":y"的顺序(只要它们之间相同，我的意思是 x 和 y 具有相同的索引......不是问题，因为它们在同一个行)和最终结果的 Id，我读了那个 group-by 保持顺序。
也许这就是手术成本高昂的地方？

如果有人遇到过以下情况，我会为您提供示例数据:

(def sample '({"Id" "1" "Max" 1 "Probability" 0.5} {"Id" "1" "Max" 5 "Probability" 0.6} {"Id" "1" "Max" 10 "Probability" 0.99} {"Id" "2" "Max" 1 "Probability" 0.1} {"Id" "2" "Max" 7 "Probability" 0.95}))

其他选择

我有其他想法，但我不确定它们是否适合“Clojure”。

在 Python 中，由于函数的性质和文件已经排序，我没有使用 group-by，而是在每个组的数据帧开始和结束索引中写入，这样我只需要直接选择子数据选项卡。

我还可以加载一个 id 列表，而不是从 Clojure 计算它。
喜欢

(def ids '("1""2"等

所以也许可以从以下开始:

{"1" {:x [] :y []} "2" {:x [] :y []} etc.

从前一个序列，然后匹配每个 ID 上的大文件。

我不知道它实际上是否更有效。

我有逻辑回归的所有其他功能，我只是缺少这部分!
谢谢 !

编辑

感谢您的回答，我终于有了这个解决方案。

在我的 project.clj 文件中

 :jvm-opts ["-Xmx13g"])

代码 :

(defn data-group->map [group]
  {(:Id (first group))
   {:x (map :Max group)
    :y (map :Probability group)}})


(defn prob-cumsum [data]
  (cag/fmap
    (fn [x]
      (assoc x :y (reductions + (x :y))))
  data))


(defn process-data-splitter [data]
  (->> (partition-by :Id data)
       (map data-group->map)
       (into {})
       (prob-cumsum)))

我包装了我所有的代码并且它有效。拆分大约需要 5 分钟，但我不需要超速。内存使用量可以上升到用于文件读取的所有内存，然后是 sigmoid。

最佳答案

如果您的文件按 id 排序，则可以使用 partition-by而不是 group-by .

那么您的代码将如下所示:

(defn data-group->map [group]
  [(:Id (first group))
   {:x (mapv :Max group)
    :y (mapv :Probability group)}])

(defn read-file []
  (let [path (:path-file @config)
        content-csv (take-csv path \,)]
    (->> content-csv
         (partition-by :Id)
         (map data-group->map)
         (into {}))))

这应该加快速度。
然后你可以使用换能器让它更快

(defn read-file []
  (let [path (:path-file @config)
        content-csv (take-csv path \,)]
    (into {} (comp (partition-by :Id)
                   (map data-group->map))
          content-csv)))

让我们做一些测试:

首先生成像你这样的巨大数据:

(def huge-data
  (doall (mapcat #(repeat 
                     1000000
                     {:Id % :Max 1 :Probability 10})
           (range 10))))

我们有千万项数据集，百万条 {:Id 0 :Max 1 :Probability 10} ，万 {:Id 1 :Max 1 :Probability 10}等等。

现在要测试的功能:

(defn process-data-group-by [data]
  (->> (group-by :Id data)
       (map (fn [[k v]]
              [k {:x (mapv :Max v) :y (mapv :Probability v)}]))
       (into {})))

(defn process-data-partition-by [data]
  (->> data
       (partition-by :Id)
       (map data-group->map)
       (into {})))

(defn process-data-transducer [data]
  (into {} (comp (partition-by :Id) (map data-group->map)) data))

现在时间测试:

(do (time (dorun (process-data-group-by huge-data)))
    (time (dorun (process-data-partition-by huge-data)))
    (time (dorun (process-data-transducer huge-data))))

"Elapsed time: 3377.167645 msecs"
"Elapsed time: 3707.03448 msecs"
"Elapsed time: 1462.955152 msecs"

注意， partition-by产生惰性序列，而 group-by 应该实现整个集合。因此，如果您需要逐组的数据，而不是整个 map ，则可以删除 (into {})并更快地访问每一个:

(defn process-data-partition-by [data]
  (->> data
       (partition-by :Id)
       (map data-group->map)))

查看:

user> (time (def processed-data (process-data-partition-by huge-data)))
"Elapsed time: 0.06079 msecs"
#'user/processed-data
user> (time (let [f (first processed-data)]))
"Elapsed time: 302.200571 msecs"
nil
user> (time (let [f (second processed-data)]))
"Elapsed time: 500.597153 msecs"
nil
user> (time (let [f (last processed-data)]))
"Elapsed time: 2924.588625 msecs"
nil
user.core> (time (let [f (last processed-data)]))
"Elapsed time: 0.037646 msecs"
nil

关于Clojure : Group-by too slow (13 million-lines file)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35127822/

25

4

0

文章推荐： eclipse - 无效的防伪 token

文章推荐： ansible - 参数组的类型为 'dict'，我们无法转换为列表

文章推荐： Nginx:根据 HTTP 方法启用/禁用缓存

javascript - fadein/out slow 没有 "slow"效果
下面的代码应该淡入淡出。我究竟做错了什么？ $(window).scroll(function(){ if ($(window).scrollTop() > 910){ $('
Java Swing 小程序 : How to slow or delay paint() without slowing down the entire program
我正在 java swing applet 上创建一个 whack a mole 游戏，但我在计时 mole 出现时遇到了问题。我似乎无法避免 paint () 在我身上循环，从而过快地随机化地鼠的坐
powershell远程处理: very slow
如果我从solaris服务器ssh到美国服务器，ssh连接很快，比如删除一个文件很快就可以完成。但是为什么powershell远程处理这么慢，我进入远程 session 后，然后删除一个项目，需要1
Java和SQL查询: slowness
我正在获取一个 Java 小程序来填充数据库。我在 HP i3 ram6gb 上使用 JDK 1.7 和 XAMPP 3.2.1 32 位。我的数据库很大并且具有以下结构: [TABLE] attr
c++ - 做一个循环 "slow down"
我正在使用 OpenGL 在 C++ 中制作塔防游戏。当尝试使用 Windows.H 中的“ sleep ”功能时，它会导致我的 OpenGL 窗口打开我输休眠眠的任何值的总时间，然后打开窗口。有什么
jquery - 如何通过切换使其更平滑 ('slow' )
我有以下代码，它可以工作，但在每个切换操作结束时变得有点跳动。切换段落会不会更流畅？我正在尝试获取该段落，但我不知道该怎么做。 body {width: 660px; margin: 0 aut
c# - 为什么这个单元测试如此 "slow"
我在想这个。我创建了一个 Complex 类只是为了好玩(用于存储复数)并习惯于 TDD。并且我编写了以下测试: [TestMethod] [TestCategory("COMPLE
屏幕关闭时的 Android "slows down"
我正在开发一款每 30 秒向互联网发布一次的应用程序。一切正常，直到屏幕熄灭。计时器似乎变慢了。发布需要大约 5 分钟。我已经尝试获取唤醒锁和 setforegroundactivity 但没有任何效
mysql - 从另一个表更新新列 : too slow
我有一个很大的表，我决定通过从另一个表中引入一个带有 ID 的新列并删除另外两个列来减小它的大小。以下是表格: Table tests: +---------------+--------------
安卓工作室 : testing is slow
每次我想对一些代码进行快速测试时，android studio 需要 20-40 分钟来加载一个模拟器，这导致我的笔记本电脑崩溃或运行速度非常慢。有什么方法可以只使用系统日志而不加载整个应用程序，类似
python - 基于语言测试的阿拉伯语句子过滤列表 : Why so slow?
我正在尝试查看(主要是)阿拉伯语句子列表，并删除那些不是阿拉伯语的句子。我有一个判断字符是否为阿拉伯语的技巧:阿拉伯语没有大小写，所以如果字符是字母但不是大写或小写，它就是阿拉伯语。我有下面的代码，
c++ - "Slowing"输出
我有一个问题，我不知道怎么解释好，但我会尝试......例如，在某些游戏中，文本输出“慢”，一个接一个地写char，而不是所有的一次短语......那么，我怎样才能复制这种行为？我想这样......
Java 反射 : Why is it so slow?
基于 Java 反射慢的名声，我一直避免使用它。我在当前项目的设计中达到了一个点，能够使用它会使我的代码更具可读性和优雅，所以我决定试一试。我只是对差异感到惊讶，我注意到有时运行时间几乎长了 100
MySQL开启慢查询日志log-slow-queries的方法
一个普通WEB站点的页面常常需要查询N条SQL语句后才能得出页面结果，当网站访问速度慢而前端做了大量优化工作以后，数据库瓶颈的查找也是WEB优化的一个重要部分。 MySQL中提供了一个
五款常用mysql slow log分析工具的比较分析
启用 slow log 有两种启用方式: 1, 在my.cnf 里通过 log-slow-queries[=file_name] 2, 在mysqld进程启动时,指定--lo
python - numpy.vectorize : Why so slow?
scipy.special 中的 expit 函数是一个向量化的 sigmoid 函数。它计算 1/(1+e^(-x))，这很复杂，可能涉及泰勒级数。我了解了“快速 sigmoid”，1/(1 +
python - tensorflow : slow startup
我使用 PyCharm，我是 python 的新手。经过 2 天弄清楚 tensorflow 的工作原理后，我成功了，但启动时间很慢。在句子之前一切正常:'Adding visible gpu de
security - HTTP Slow Post和IIS设置可防止
因此，我们从一家安全公司获得了此报告，称我们在IIS 8.0上运行的MVC网站容易受到缓慢的HTTP post DoS攻击的攻击。报告说我们应该限制请求属性是通过元素实现的，特别是maxAllow
performance - 如何量化你的 "slow"开发机？
(请提供这个重复的问题。我很失望我找不到它。) 我的开发机器“慢”。我等待它“很多”。想要帮助公平、准确地衡量那个时间的决策者曾问过我。您如何量化您在计算机上等待的时间(在编译期间，每天等待应用程序
Jquery fadein 'slow' 太快
我正在使用 jquery fadein fadeout 和慢速选项，但它对我来说仍然有点太快了。现在我读到你只能在快和慢之间进行选择，但是有没有办法让它变慢呢？最佳答案你有两个选择。第一种是在调用

首页

博学

6Ren·AI

商城

Clojure : Group-by too slow (13 million-lines file)