multithreading - Haskell:次优的并行 GC 工作平衡，并行执行没有加速-6ren

multithreading - Haskell:次优的并行 GC 工作平衡，并行执行没有加速

转载作者：行者123 更新时间：2023-12-04 08:52:33

我的问题的描述实际上与 this post 中的相同。，但是虽然我觉得可以理解对应的solution ，如果有的话，我看不出它如何适用于我的问题。

这是我的示例程序

{-# LANGUAGE BangPatterns #-}

import System.Random (randoms, mkStdGen)
import Control.Parallel.Strategies
import Control.DeepSeq (NFData)
import Data.List

data Point = Point !Double !Double

fmod :: Double -> Double -> Double
fmod a b | a < 0     = b - fmod (abs a) b 
         | otherwise = if a < b then a 
                        else let q = a / b 
                             in b * (q - fromIntegral (floor q :: Int))

standardMap :: Double -> Point -> Point
standardMap k (Point q p) = 
   Point (fmod (q + p) (2 * pi)) (fmod (p + k * sin(q)) (2 * pi))

iterate' gen !p = p : (iterate' gen $ gen p)

iterateN :: (Point -> Point) -> [Int] -> Point -> [Point]
iterateN _ [] p = [p]
iterateN gen (dn:dns) p = 
   p : (iterateN gen dns $ (head . drop dn) $ iterate' gen p) 

ensemble :: [Point]
ensemble = zipWith Point qs ps
   where qs = randoms (mkStdGen 42)
         ps = randoms (mkStdGen 21)

main = let dns = take 100 $ repeat 10000
           ens = take 1000 ensemble
           obs = \(Point p q) -> p^2 - q^2
           work = map obs . (iterateN (standardMap 7.0) dns)
           ps = parMap rdeepseq work ens
       in putStrLn $ show (foldl' (+) 0 $ map (foldl' (+) 0) ps)

问题是这个程序不能很好地适应线程数。
例如，在 Debian 3.2.46-1 x86_64}与 GHC 7.4.1我明白了

$ ghc -O3 --make stmap.hs -threaded

$ time ./stmap +RTS -N1
  real    1m9.791s
  user    1m9.448s
  sys     0m0.208s

$ time ./stmap +RTS -N2
  real    0m36.981s
  user    1m13.113s
  sys     0m0.656s

$ time ./stmap +RTS -N4
  real    0m23.110s
  user    1m31.310s
  sys     0m0.792s

$ time ./stmap +RTS -N8
  real    0m20.537s
  user    2m21.921s
  sys     0m21.017s

这个数字可能会有很大的波动。我发现问题可能出在哪里的唯一指标是次优的并行 GC 工作平衡，例如:

$ ./stmap +RTS -N8 -sstderr 1>/dev/null
112,032,905,392 bytes allocated in the heap
  59,112,296 bytes copied during GC
     971,520 bytes maximum residency (35 sample(s))
      96,416 bytes maximum slop
           8 MB total memory in use (1 MB lost due to fragmentation)

                                Tot time (elapsed)  Avg pause  Max pause
Gen  0     27032 colls, 27031 par    6.49s    0.81s     0.0000s    0.0015s
Gen  1        35 colls,    35 par    0.39s    0.05s     0.0014s    0.0028s

Parallel GC work balance: 4.05 (6799831 / 1680927, ideal 8)

                     MUT time (elapsed)       GC time  (elapsed)
Task  0 (worker) :   14.81s    ( 14.84s)       0.96s    (  0.97s)
Task  1 (worker) :    0.00s    ( 15.81s)       0.00s    (  0.00s)
Task  2 (bound)  :    0.03s    ( 15.80s)       0.01s    (  0.01s)
Task  3 (worker) :   14.72s    ( 14.82s)       0.98s    (  0.99s)
Task  4 (worker) :   14.70s    ( 14.84s)       0.96s    (  0.97s)
Task  5 (worker) :   14.69s    ( 14.82s)       0.98s    (  0.99s)
Task  6 (worker) :   14.69s    ( 14.82s)       0.98s    (  0.99s)
Task  7 (worker) :   14.72s    ( 14.81s)       0.99s    (  1.00s)
Task  8 (worker) :   14.76s    ( 14.83s)       0.97s    (  0.98s)
Task  9 (worker) :   14.76s    ( 14.81s)       1.00s    (  1.00s)

SPARKS: 1000 (1000 converted, 0 overflowed, 0 dud, 0 GC'd, 0 fizzled)

INIT    time    0.00s  (  0.00s elapsed)
MUT     time  118.87s  ( 14.95s elapsed)
GC      time    6.87s  (  0.86s elapsed)
EXIT    time    0.00s  (  0.00s elapsed)
Total   time  125.74s  ( 15.81s elapsed)

Alloc rate    942,488,358 bytes per MUT second

Productivity  94.5% of total user, 751.8% of total elapsed

gc_alloc_block_sync: 1130880
whitehole_spin: 0
gen[0].sync: 0
gen[1].sync: 175

它在哪里〜4，但在下一次运行中它更糟，〜2，

$ ./stmap +RTS -N8 -sstderr
60364.38698300099
 112,033,885,088 bytes allocated in the heap
  4,626,963,592 bytes copied during GC
   2,101,264 bytes maximum residency (1846 sample(s))
     652,528 bytes maximum slop
          13 MB total memory in use (0 MB lost due to fragmentation)

                                   Tot time (elapsed)  Avg pause  Max pause
Gen  0     25497 colls, 25496 par   29.42s    3.70s     0.0001s    0.0022s
Gen  1      1846 colls,  1846 par   17.97s    2.26s     0.0012s    0.0071s

Parallel GC work balance: 2.00 (577773617 / 288947149, ideal 8)

                    MUT time (elapsed)       GC time  (elapsed)
Task  0 (worker) :   14.86s    ( 15.03s)       6.07s    (  6.10s)
Task  1 (worker) :    0.00s    ( 21.13s)       0.00s    (  0.00s)
Task  2 (bound)  :    0.03s    ( 21.11s)       0.02s    (  0.02s)
Task  3 (worker) :   14.92s    ( 14.99s)       6.06s    (  6.14s)
Task  4 (worker) :   14.88s    ( 15.02s)       6.07s    (  6.11s)
Task  5 (worker) :   14.91s    ( 15.02s)       6.09s    (  6.12s)
Task  6 (worker) :   14.92s    ( 15.04s)       6.07s    (  6.10s)
Task  7 (worker) :   14.86s    ( 15.03s)       6.03s    (  6.11s)
Task  8 (worker) :   14.86s    ( 15.03s)       6.07s    (  6.10s)
Task  9 (worker) :   14.92s    ( 15.00s)       6.11s    (  6.13s)

SPARKS: 1000 (1000 converted, 0 overflowed, 0 dud, 0 GC'd, 0 fizzled)

INIT    time    0.00s  (  0.00s elapsed)
MUT     time  120.36s  ( 15.18s elapsed)
GC      time   47.39s  (  5.96s elapsed)
EXIT    time    0.00s  (  0.00s elapsed)
Total   time  167.75s  ( 21.13s elapsed)

Alloc rate    930,821,901 bytes per MUT second

Productivity  71.7% of total user, 569.5% of total elapsed

gc_alloc_block_sync: 1253157 
whitehole_spin: 21
gen[0].sync: 4
gen[1].sync: 19789

是什么导致了执行时间的这些波动？最重要的是，在我的具体示例和一般情况下，如何改善并行 GC 工作平衡？

最佳答案

变化可能是由于使用 +RTS -Nn导致创建一个绑定(bind)线程和n工作线程(参见输出)，因此一个工作线程将与绑定(bind)线程共享一个物理内核并进行干扰。因此，建议使用低于可用物理内核总数的数字作为 +RTS -N 的参数。 .

另一个潜在的问题是负载平衡:如果存在负载不平衡，您可能需要以不同的方式拆分工作(threadscope 配置文件会有所帮助)。看看这个paper有关调整的更多详细信息。

关于multithreading - Haskell:次优的并行 GC 工作平衡，并行执行没有加速，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18271752/

文章推荐： SQL SELECT where 标记值 LIKE

文章推荐： f# - Mono 中的尾调用

文章推荐： Emacs 组织模式 : define variable in buffer and access variable

multithreading - Lua-如何模拟 “multithreading”？
我有2个功能: function func1() while true do -- listen on connection end end function func2()
multithreading - clojure 是 "multithread"吗？
我的问题可能看起来很奇怪，但我想我正面临着 volatile 的问题。对象。我写了一个这样实现的库(只是一个方案，不是真正的内容): (def var1 (volatile! nil)) (def
multithreading - Maven Sonarqube 插件 : Multithreading
由于 maven 支持多线程构建，是否可以同时运行 Sonar 多线程？ (例如 mvn sonar:sonar -T 4 ) 我运行了它，当模块报告成功时，它报告整个构建失败并返回 java.uti
multithreading - Java : Running transaction in multithreaded environment
我们正在启动一个网站，该网站在短时间内的交易量非常大。它基本上是在给票。该代码是用Java，Spring和Hibernate编写的。我想通过产生多个线程并尝试使用JUnit测试用例来获取票证来模仿高容
multithreading - 虚幻引擎4 : Adapting ReadPixels() to a multithreaded framework
我正在尝试访问像素数据并将图像从游戏中的相机保存到磁盘。最初，简单的方法是使用渲染目标，然后使用RenderTarget-> ReadPixels()，但是由于ReadPixels()的 native
multithreading - Mahout优化: Multithreading TopItems. getTopUsers()和TopItems.getTopItems()
我们有以下系统: 用户数:〜500k 项目数:〜100k UserSimilarity userSimilarity = new TanimotoCoefficientSimilarity(dataM
multithreading - Spring 批处理 : problems (mix data) when converting to multithread
也许这是一个经常出现的问题，但我需要根据我的上下文进行一些自定义。我正在使用 Spring Batch 3.0.1.RELEASE 我有一个简单的工作，有一些步骤。一个步骤是这样的 block :
multithreading - Spring 批处理 : problems (mix data) when converting to multithread
也许这是一个经常出现的问题，但我需要根据我的上下文进行一些自定义。我正在使用 Spring Batch 3.0.1.RELEASE 我有一个简单的工作，有一些步骤。一个步骤是这样的 block :
multithreading - Python : multithreaded learning neural networks using PyBrain and Multiprocessing
我正在尝试使用PyBrain和Python的multiprocessing软件包在Python中训练神经网络。这是我的代码(它训练了一个简单的神经网络来学习XOR逻辑)。 import pybrai
multithreading - Adobe Air AS3 :How to run a function in workers_ Multithreading (by Workers)
我有一个繁重的功能，不适合在主时间轴上执行(因为要花很长时间才能完成并使程序崩溃)。因此我在air(as3)中搜索多线程，但是我发现的所有示例都说明了如何在worker中运行单独的swf文件。如何在
multithreading - Flutter Dart : How can we achieve multithreading like python or java in dart
我想实现线程A 和线程B 并行运行并共享全局变量。下面是用python编写的代码。我想在中执行相同操作Dart (我不想使用future等待，因为它正在等待其他线程完成或必须等待。) 大小写变量:
c++ - Visual Studio C++ "Multithreaded Debug DLL"与 "Multithreaded DLL"
我的一个项目只适用于调试 DLL，而不适用于非调试 DLL。在 Debug DLL 设置下发布项目有哪些注意事项？例如，是否丢失了某些优化？如何通过将调试版本设置为非调试 DLL 来调试此项目？我
multithreading - 线性系统求解器在 Julia 中是否也像在 Matlab 中一样是多线程的？以及如何在 Julia 中对其进行 "multithread"处理？
我正在尝试比较 Matlab 和 Julia 之间的速度和性能。我正在查看一个代码，该代码对承受给定负载的连续体结构进行拓扑优化。我正在查看的代码是公共(public)代码topopt88.m:htt
python - 引发 ValueError ("cannot have a multithreaded and multi process server.") ValueError : cannot have a multithreaded and multi process server
Serving Flask 应用程序“服务器”(延迟加载) 环境:生产警告:这是一个开发服务器。不要在生产部署中使用它。请改用生产 WSGI 服务器。 Debug模式:开启在 http://0.0.
multithreading - 如何通过调用另一个函数的QThread更新PyQT中的Progressbar
我对 PyQT 很陌生。我正在学习如何制作 Progressbar 并随着算法的进展对其进行更新。我已经能够制作一个使用此链接进行 self 更新的基本进度条:Python pyqt pulsing
multithreading - 将任务添加到特定线程的队列中
我正在尝试指定在特定线程上运行任务，这样我就可以使用两个专用于“放入” channel 的耗时任务的线程，而其他线程则用于处理该任务。我对如何将特定任务分配给特定线程感到困惑。我以为我可以使用类似
multithreading - QT多线程QImage改变
我正在编写一个软件，它对很多(潜在的大)图像进行大量图像操作/合成。多线程有助于提高速度，但 QT 不允许同时在同一图像上使用多个 QPainter。所以我必须在副本的每个线程中进行图像操作/合成
multithreading - 用数组请求多线程
此脚本读取 url 文件以执行多线程 HTTP 请求。如何使用带有 url 的数组来发出多线程请求？我的阵列将有类似的东西: @array = ("https://example.com/xsd"
multithreading - 构造函数中的过早泄漏
Java 文档声明了以下关于构造函数同步的内容: Note that constructors cannot be synchronized — using the synchronized keyw
multithreading - 调试核心文件时找到主线程
我有一个程序，其中主线程创建了很多线程。它崩溃了，我正在调试核心文件。崩溃发生在其中一个子线程中。为了找到原因，我需要知道主线程是否还活着。有什么方法可以找出哪个线程是初始线程？最佳答案 Is th

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

multithreading - Haskell:次优的并行 GC 工作平衡，并行执行没有加速