- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
情况
我有一个 1300 万行的 CSV,我想对每个组执行逻辑回归(incanter)。
我的文件就是这样(值只是示例)
ID Max Probability
1 1 0.5
1 5 0.6
1 10 0.99
2 1 0.1
2 7 0.95
( {"Id" "1", "Max" 1, "Probability" 0.5} {"Id" "1", "Max" 5, "Probability" 0.6} etc.
(defn read-file
[]
(let [path (:path-file @config)
content-csv (take-csv path \,)]
(->> (group-by :Id content-csv)
(map (fn [[k v]]
[k {:x (mapv :Max v) :y (mapv :Probability v)}]))
(into {}))))
{"1" {:x [1 5 10] :y [0.5 0.6 0.99]} "2" {:x [1 7] :y [0.1 0.95]} etc.
(def sample '({"Id" "1" "Max" 1 "Probability" 0.5} {"Id" "1" "Max" 5 "Probability" 0.6} {"Id" "1" "Max" 10 "Probability" 0.99} {"Id" "2" "Max" 1 "Probability" 0.1} {"Id" "2" "Max" 7 "Probability" 0.95}))
{"1" {:x [] :y []} "2" {:x [] :y []} etc.
:jvm-opts ["-Xmx13g"])
(defn data-group->map [group]
{(:Id (first group))
{:x (map :Max group)
:y (map :Probability group)}})
(defn prob-cumsum [data]
(cag/fmap
(fn [x]
(assoc x :y (reductions + (x :y))))
data))
(defn process-data-splitter [data]
(->> (partition-by :Id data)
(map data-group->map)
(into {})
(prob-cumsum)))
最佳答案
如果您的文件按 id 排序,则可以使用 partition-by
而不是 group-by
.
那么您的代码将如下所示:
(defn data-group->map [group]
[(:Id (first group))
{:x (mapv :Max group)
:y (mapv :Probability group)}])
(defn read-file []
(let [path (:path-file @config)
content-csv (take-csv path \,)]
(->> content-csv
(partition-by :Id)
(map data-group->map)
(into {}))))
(defn read-file []
(let [path (:path-file @config)
content-csv (take-csv path \,)]
(into {} (comp (partition-by :Id)
(map data-group->map))
content-csv)))
(def huge-data
(doall (mapcat #(repeat
1000000
{:Id % :Max 1 :Probability 10})
(range 10))))
{:Id 0 :Max 1 :Probability 10}
,万
{:Id 1 :Max 1 :Probability 10}
等等。
(defn process-data-group-by [data]
(->> (group-by :Id data)
(map (fn [[k v]]
[k {:x (mapv :Max v) :y (mapv :Probability v)}]))
(into {})))
(defn process-data-partition-by [data]
(->> data
(partition-by :Id)
(map data-group->map)
(into {})))
(defn process-data-transducer [data]
(into {} (comp (partition-by :Id) (map data-group->map)) data))
(do (time (dorun (process-data-group-by huge-data)))
(time (dorun (process-data-partition-by huge-data)))
(time (dorun (process-data-transducer huge-data))))
"Elapsed time: 3377.167645 msecs"
"Elapsed time: 3707.03448 msecs"
"Elapsed time: 1462.955152 msecs"
partition-by
产生惰性序列,而 group-by 应该实现整个集合。因此,如果您需要逐组的数据,而不是整个 map ,则可以删除
(into {})
并更快地访问每一个:
(defn process-data-partition-by [data]
(->> data
(partition-by :Id)
(map data-group->map)))
user> (time (def processed-data (process-data-partition-by huge-data)))
"Elapsed time: 0.06079 msecs"
#'user/processed-data
user> (time (let [f (first processed-data)]))
"Elapsed time: 302.200571 msecs"
nil
user> (time (let [f (second processed-data)]))
"Elapsed time: 500.597153 msecs"
nil
user> (time (let [f (last processed-data)]))
"Elapsed time: 2924.588625 msecs"
nil
user.core> (time (let [f (last processed-data)]))
"Elapsed time: 0.037646 msecs"
nil
关于Clojure : Group-by too slow (13 million-lines file),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35127822/
下面的代码应该淡入淡出。我究竟做错了什么? $(window).scroll(function(){ if ($(window).scrollTop() > 910){ $('
我正在 java swing applet 上创建一个 whack a mole 游戏,但我在计时 mole 出现时遇到了问题。我似乎无法避免 paint () 在我身上循环,从而过快地随机化地鼠的坐
如果我从solaris服务器ssh到美国服务器,ssh连接很快,比如删除一个文件很快就可以完成。 但是为什么powershell远程处理这么慢,我进入远程 session 后,然后删除一个项目,需要1
我正在获取一个 Java 小程序来填充数据库。 我在 HP i3 ram6gb 上使用 JDK 1.7 和 XAMPP 3.2.1 32 位。我的数据库很大并且具有以下结构: [TABLE] attr
我正在使用 OpenGL 在 C++ 中制作塔防游戏。当尝试使用 Windows.H 中的“ sleep ”功能时,它会导致我的 OpenGL 窗口打开我输休眠眠的任何值的总时间,然后打开窗口。有什么
我有以下代码,它可以工作,但在每个切换操作结束时变得有点跳动。 切换段落会不会更流畅?我正在尝试获取该段落,但我不知道该怎么做。 body {width: 660px; margin: 0 aut
我在想这个。我创建了一个 Complex 类只是为了好玩(用于存储复数)并习惯于 TDD。 并且我编写了以下测试: [TestMethod] [TestCategory("COMPLE
我正在开发一款每 30 秒向互联网发布一次的应用程序。一切正常,直到屏幕熄灭。计时器似乎变慢了。发布需要大约 5 分钟。我已经尝试获取唤醒锁和 setforegroundactivity 但没有任何效
我有一个很大的表,我决定通过从另一个表中引入一个带有 ID 的新列并删除另外两个列来减小它的大小。以下是表格: Table tests: +---------------+--------------
每次我想对一些代码进行快速测试时,android studio 需要 20-40 分钟来加载一个模拟器,这导致我的笔记本电脑崩溃或运行速度非常慢。有什么方法可以只使用系统日志而不加载整个应用程序,类似
我正在尝试查看(主要是)阿拉伯语句子列表,并删除那些不是阿拉伯语的句子。我有一个判断字符是否为阿拉伯语的技巧:阿拉伯语没有大小写,所以如果字符是字母但不是大写或小写,它就是阿拉伯语。 我有下面的代码,
我有一个问题,我不知道怎么解释好,但我会尝试......例如,在某些游戏中,文本输出“慢”,一个接一个地写char,而不是所有的一次短语......那么,我怎样才能复制这种行为? 我想这样......
基于 Java 反射慢的名声,我一直避免使用它。我在当前项目的设计中达到了一个点,能够使用它会使我的代码更具可读性和优雅,所以我决定试一试。 我只是对差异感到惊讶,我注意到有时运行时间几乎长了 100
一个普通WEB站点的页面常常需要查询N条SQL语句后才能得出页面结果,当网站访问速度慢而前端做了大量优化工作以后,数据库瓶颈的查找也是WEB优化的一个重要部分。 MySQL中提供了一个
启用 slow log 有两种启用方式: 1, 在my.cnf 里 通过 log-slow-queries[=file_name] 2, 在mysqld进程启动时,指定--lo
scipy.special 中的 expit 函数是一个向量化的 sigmoid 函数。它计算 1/(1+e^(-x)),这很复杂,可能涉及泰勒级数。 我了解了“快速 sigmoid”,1/(1 +
我使用 PyCharm,我是 python 的新手。 经过 2 天弄清楚 tensorflow 的工作原理后,我成功了,但启动时间很慢。在句子之前一切正常:'Adding visible gpu de
因此,我们从一家安全公司获得了此报告,称我们在IIS 8.0上运行的MVC网站容易受到缓慢的HTTP post DoS攻击的攻击。报告说我们应该 限制请求属性是通过元素实现的, 特别是maxAllow
(请提供这个重复的问题。我很失望我找不到它。) 我的开发机器“慢”。我等待它“很多”。 想要帮助公平、准确地衡量那个时间的决策者曾问过我。您如何量化您在计算机上等待的时间(在编译期间,每天等待应用程序
我正在使用 jquery fadein fadeout 和慢速选项,但它对我来说仍然有点太快了。现在我读到你只能在快和慢之间进行选择,但是有没有办法让它变慢呢? 最佳答案 你有两个选择。第一种是在调用
我是一名优秀的程序员,十分优秀!