- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经用 Data.Clustering.Hierarchical 写了一个 Clustering 的代码,但是它很慢。
我尝试分析和更改一些代码,但我不知道为什么 zipWith
花费这么多时间? (即使我将列表更改为矢量。)
import Data.Clustering.Hierarchical
import qualified Data.Vector.Primitive as DV
import System.Random
import Control.Monad
main = do
vectorList <- genTestdata
let cluster = dendrogram SingleLinkage vectorList getVectorDistance
putStrLn $ show cluster
genZero x
| x<5 = x
|otherwise = 0
genVector::IO (DV.Vector Int)
genVector = do
listRandom <- mapM (\x -> randomRIO (1,30) ) [1..20]
let intOut = DV.fromList $ map genZero listRandom
return intOut
genTestdata = do
r <- sequence $ map (\x -> liftM (\y -> (x,y)) genVector) [1..1000]
return r
getExp2 v1 v2 = d*d
where
d = v1 - v2
getExp v1 v2
| v1 == v2 = 0
| otherwise = getExp2 v1 v2
tfoldl d = DV.foldl1' (+) d
changeDataType:: Int -> Double
changeDataType d = fromIntegral d
getVectorDistance::(a,DV.Vector Int)->(a, DV.Vector Int )->Double
getVectorDistance v1 v2 = fromIntegral $ tfoldl dat
where
l1 = snd v1
l2 = snd v2
dat = DV.zipWith getExp l1 l2
要构建它,请使用:ghc -prof -fprof-auto -rtsopts -O2 log_cluster.hs
使用 log_cluster.exe +RTS -p
运行
我机器上的分析结果如下——注意 getVectorDistance.dat
的结果:
> log_cluster.exe +RTS -p -RTS
total time = 8.43 secs (8433 ticks @ 1000 us, 1 processor)
total alloc = 1,614,252,224 bytes (excludes profiling overheads)
COST CENTRE MODULE %time %alloc
getVectorDistance.dat Main 49.4 37.8 <------
tfoldl Main 5.7 0.0
getExp Main 4.5 0.0
getExp2 Main 0.5 1.5
最佳答案
采纳我评论中的建议,以下是运行相同代码的时间安排:
user:~/explorations$ ghc -O2 log_cluster.hs -rtsopts
[1 of 1] Compiling Main ( log_cluster.hs, log_cluster.o )
Linking log_cluster ...
user:~/explorations$ time ./log_cluster
101000
real 0m0.127s
user 0m0.120s
sys 0m0.000s
当使用分析构建时:
user:~/explorations$ ghc -prof -fprof-auto -O2 log_cluster.hs -rtsopts
[1 of 1] Compiling Main ( log_cluster.hs, log_cluster.o )
Linking log_cluster ...
user:~/explorations$ time ./log_cluster
101000
real 0m2.937s
user 0m2.920s
sys 0m0.000s
因此,经过分析的构建速度慢了大约 25 倍,这是一个相当大的开销。
在这一点上,我猜你的程序运行缓慢的原因是你构建它是为了分析。如果非分析构建也太慢,您可能需要使用一些更复杂的分析技术。
当然这有点推测,因为您提供的代码无法编译,所以我不得不填补一些空白。
编辑:明确地说,我的立场是添加 SCC
注释(无论是手动还是自动)限制了 ghc 可以执行的优化。它们应用得越自由,剖析代码和未剖析代码之间的差异就越大。这可能会产生误导性的配置文件,因为在配置文件代码中显示为瓶颈的函数可能不会如此。我认为这就是这里发生的事情。
如果分析结果如此扭曲,OP 非常合理地询问如何找到瓶颈。我希望对于这个例子,DV.zipWith
实际上是一个瓶颈,因为它是唯一做重要工作的函数(见下面的测试生成代码),但是手动检查核心(通过编译生成-ddump-simpl -ddump-to-file -dsuppress-coercions
) 显示 getVectorDistance
产生了一个很好的未装箱循环,中间向量完全融合了。我怀疑如果不采取英勇措施,它能否得到显着改善。 (见注2)
一般来说,使用分析的最佳方法是从顶部开始向下钻取。您可以在顶层附近手动添加一些 SCC
注释,或者使用 -fprof-auto-exported
,最好只指定一些靠近顶层的关键模块,以获得一个粗略的想法。从那里您可以进一步深入,通过向更多模块添加注释,手动添加更多 SCC
注释,或者,如果您幸运的话,切换到 -fprof-auto
。不幸的是,仅使用 -fprof-auto-exported
对该示例没有太大帮助,除非您还添加了 module Main (main, getVectorDistance)
语句。
另一种方法是使用不同的分析方法。你可以使用例如ghc-events-analyze分析您的代码。这涉及手动添加一些跟踪语句并对事件日志进行后处理,但它通常对编译器优化的干扰要小得多。在纯代码中,有时很难弄清楚在哪里放置语句以便正确评估它们,我的 chronograph包可以处理这个(它还不支持 ghc-events-analyze 格式,但我会尽快添加)。
我希望这是完整代码的缩减示例。希望这些技术之一将有助于找到可以更容易改进的瓶颈。
注意 1:如果数据生成代码与您的完整程序相似,则几乎可以肯定它会被加速。 System.Random
是出了名的慢,使用 mwc-random或 mersenne-random .我也对使用 DV.fromList
有点怀疑,但它可能会被融合掉。
注意 2:当使用 -prof -fprof-auto
编译时,核心不是那么好。不是对两个向量进行拆箱循环,而是首先创建一个新向量,然后循环遍历该新向量以计算总和。所以你有额外的分配、额外的内存压力和两次遍历而不是一次。这就是配置文件版本明显变慢的原因,也是我认为配置文件具有误导性的原因:DV.zipWith
的时间显着膨胀。
关于performance - 如何提高 zipWith 在 Haskell 中的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25255917/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!