multithreading - 为什么我的程序用一个核心而不是两个核心更快？-6ren

multithreading - 为什么我的程序用一个核心而不是两个核心更快？

转载作者：行者123 更新时间：2023-12-04 06:40:44

25

4

我目前正在尝试了解如何在 Haskell 中并行编程。我正在关注 Simon Peyton Jones 和 Satnam Singh 的论文“A Tutorial on Parallel and Concurrent Programming in Haskell”。源代码如下:

module Main where
import Control.Parallel
import System.Time

main :: IO ()
main = do
      putStrLn "Starting computation....."
      t0 <- getClockTime
      pseq r1 (return())
      t1 <- getClockTime
      putStrLn ("sum: " ++ show r1)
      putStrLn ("time: " ++ show (secDiff t0 t1) ++ " seconds")
      putStrLn "Finish."

r1 :: Int
r1 = parSumFibEuler 38 5300

-- This is the Fibonacci number generator
fib :: Int -> Int
fib 0 = 0
fib 1 = 1
fib n = fib (n-1) + fib (n-2)

-- Gets the euler sum
mkList :: Int -> [Int]
mkList n = [1..n-1]

relprime :: Int -> Int -> Bool
relprime x y = gcd x y == 1

euler :: Int -> Int
euler n = length $ filter (relprime n) (mkList n)

sumEuler :: Int -> Int
sumEuler = sum.(map euler).mkList

-- Gets the sum of Euler and Fibonacci (NORMAL)
sumFibEuler :: Int -> Int -> Int
sumFibEuler a b = fib a + sumEuler b

-- Gets the sum of Euler and Fibonacci (PARALLEL)
parSumFibEuler :: Int -> Int -> Int
parSumFibEuler a b =
  f `par` (e `pseq`(f+e))
    where
    f = fib a
    e = sumEuler b

-- Measure time
secDiff :: ClockTime -> ClockTime -> Float
secDiff (TOD secs1 psecs1) (TOD secs2 psecs2)
  = fromInteger (psecs2 -psecs1) / 1e12 + fromInteger (secs2- secs1)

我使用以下命令编译它:

ghc --make -threaded Main.hs

a) 使用 1 个核心运行它:

./Main +RTS -N1

b) 使用 2 个核心运行它:

./Main +RTS -N2

但是，一个核心运行了 53.556 秒。然而，两个核心运行了 73.401 秒。我不明白 2 核实际上如何运行得比 1 核慢。也许这个小程序的消息传递开销太大了？与地雷相比，该论文具有完全不同的结果。以下是输出详细信息。

对于 1 个核心:

Starting computation.....
sum: 47625790
time: 53.556335 seconds
Finish.
  17,961,210,216 bytes allocated in the heap
      12,595,880 bytes copied during GC
         176,536 bytes maximum residency (3 sample(s))
          23,904 bytes maximum slop
               2 MB total memory in use (0 MB lost due to fragmentation)

                                    Tot time (elapsed)  Avg pause  Max pause
  Gen  0     34389 colls,     0 par    2.54s    2.57s     0.0001s    0.0123s
  Gen  1         3 colls,     0 par    0.00s    0.00s     0.0007s    0.0010s

  Parallel GC work balance: -nan (0 / 0, ideal 1)

                        MUT time (elapsed)       GC time  (elapsed)
  Task  0 (worker) :    0.00s    (  0.00s)       0.00s    (  0.00s)
  Task  1 (worker) :    0.00s    ( 53.56s)       0.00s    (  0.00s)
  Task  2 (bound)  :   50.49s    ( 50.99s)       2.52s    (  2.57s)

  SPARKS: 0 (0 converted, 0 overflowed, 0 dud, 0 GC'd, 0 fizzled)

  INIT    time    0.00s  (  0.00s elapsed)
  MUT     time   50.47s  ( 50.99s elapsed)
  GC      time    2.54s  (  2.57s elapsed)
  EXIT    time    0.00s  (  0.00s elapsed)
  Total   time   53.02s  ( 53.56s elapsed)

  Alloc rate    355,810,305 bytes per MUT second

  Productivity  95.2% of total user, 94.2% of total elapsed

gc_alloc_block_sync: 0
whitehole_spin: 0
gen[0].sync: 0
gen[1].sync: 0

对于 2 核:

Starting computation.....
sum: 47625790
time: 73.401146 seconds
Finish.
  17,961,210,256 bytes allocated in the heap
      12,558,088 bytes copied during GC
         176,536 bytes maximum residency (3 sample(s))
         195,936 bytes maximum slop
               3 MB total memory in use (0 MB lost due to fragmentation)

                                    Tot time (elapsed)  Avg pause  Max pause
  Gen  0     34389 colls, 34388 par    7.42s    4.73s     0.0001s    0.0205s
  Gen  1         3 colls,     3 par    0.01s    0.00s     0.0011s    0.0017s

  Parallel GC work balance: 1.00 (1432193 / 1429197, ideal 2)

                        MUT time (elapsed)       GC time  (elapsed)
  Task  0 (worker) :    1.19s    ( 40.26s)      16.95s    ( 33.15s)
  Task  1 (worker) :    0.00s    ( 73.40s)       0.00s    (  0.00s)
  Task  2 (bound)  :   54.50s    ( 68.67s)       3.66s    (  4.73s)
  Task  3 (worker) :    0.00s    ( 73.41s)       0.00s    (  0.00s)

  SPARKS: 0 (0 converted, 0 overflowed, 0 dud, 0 GC'd, 0 fizzled)

  INIT    time    0.00s  (  0.00s elapsed)
  MUT     time   68.87s  ( 68.67s elapsed)
  GC      time    7.43s  (  4.73s elapsed)
  EXIT    time    0.00s  (  0.00s elapsed)
  Total   time   76.31s  ( 73.41s elapsed)

  Alloc rate    260,751,318 bytes per MUT second

  Productivity  90.3% of total user, 93.8% of total elapsed

gc_alloc_block_sync: 12254
whitehole_spin: 0
gen[0].sync: 0
gen[1].sync: 0

最佳答案

r1 = sumFibEuler 38 5300

我相信你的意思是

r1 = parSumFibEuler 38 5300

在我的配置中(使用 parSumFibEuler 45 8000 并且只运行一次):

当 N1 = 126.83s

当 N2 = 115.46s

我怀疑 fib比 sumEuler 消耗更多 CPU 的函数.这可以解释 -N2 的低改进。在你的情况下不会有一些偷工减料。

有了内存，你的斐波那契函数会好得多，但我认为这不是你想要尝试的。

编辑:正如评论中提到的，我认为使用 -N2 你有很多中断，因为你有两个可用的内核。
我的配置示例(4 核)与 sum $ parMap rdeepseq (fib) [1..40]

使用 -N1 大约需要 26 秒

使用 -N2 大约需要 16 秒

使用 -N3 大约需要 13 秒

使用 -N4 大约需要 30 秒(嗯，Haskell 程序并不孤单)

来自 here :

Be careful when using all the processors in your machine: if some of your processors are in use by other programs, this can actually harm performance rather than improve it.

关于multithreading - 为什么我的程序用一个核心而不是两个核心更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13188747/

25

4

0

文章推荐： embedded-linux - 嵌入式启动闪屏解决方案

文章推荐： powershell - 函数未返回预期对象

文章推荐： drop-down-menu - 从数据库中获取数据并在 yii 中创建列表框

文章推荐： initialization - 初始化结构值和字符串键的关联数组

c - 移动所有线程以使用其他 CPU 核心，以便一个线程可以使用其他 CPU 核心？
Linux 有许多跨(假设是 2 个)CPU 内核执行的线程和进程。我希望我的单线程 C/C++ 应用程序成为 CPU0 上的唯一线程。我如何“移动”所有其他线程以使用 CPU1？我知道我可以使用
c# - EF 核心 2、.NET 核心 2 :How do I query the same column for multiple conditions using IQueryable?
我有一个类似于下图的数据库表 Table with 2 columns (UserId and value) 我将传递 UserId 和 2 个字符串。例如:userId: 1, key1: h1,
asp.net-mvc - 我可以使用 Entity Framework 6(不是 Entity Framework 核心)开发 Asp.net 核心 MVC 应用程序吗？
我想在我的新项目中使用 ASP.NET Core，因为我听说它更快。但是，该项目将使用广泛的数据库访问功能，Entity Framework Core 不支持其中一些功能。我想知道，是否可以使用 En
asp.net-core - 应用程序中断访问 dbcontext、Asp .net 核心 web api 2.0 与 Entity Framework 核心 2.0 数据库第一种方法
我已经使用 EntityFrameworkCore.SqlServer 2.0 开发了 asp .net core wep api 2.0 应用程序。它是使用数据库优先方法开发的。当尝试使用 dbco
angular - 核心、共享和功能模块中应该包含哪些内容？
我已经阅读了很多关于这个主题的文章，但我仍然无法处理这个问题。对不起，如果它是重复的，无论如何! 所以基本上，我正在从头开始构建一个 Angular 应用程序，并且我想按照最佳约定来组织我的代码。我有
multithreading - 强制MPI使用指定的编号。核心
我对MPI还是陌生的，所以如果这是一个琐碎的问题，请原谅我。我有一个四核CPU。我想运行一个在单个内核上使用两个进程的OpenMPI C++程序。有什么办法吗？如果是这样，那又如何？我提到了this
java - 核心-java异常处理
下面是一个传播异常处理机制的类问题，所需的输出是异常。任何人都可以解释为什么输出是异常，在此先感谢。 Class Question { public void m1() throws Excep
c - 核心。如何获取获得CPU时间片的进程名和pid
我想打印每个获得 CPU 时间片的进程的 name 和 pid。可能吗？最佳答案对于单个流程，您可以在以下位置获取此信息: /proc//stat 第14和第15个字段分别代表在用户态和内核态花费
windows - 识别特定线程使用的处理器(核心)
我想知道是否可以识别具有特定 thread-id 的线程使用的物理处理器(核心)？例如，我有一个多线程应用程序，它有两 (2) 个线程(例如，thread-id = 10 和 thread-id =
solr - 使用身份验证在控制台中创建 Solr 核心
我有一个需要身份验证的 Solr 核心。假设我有一个用户，密码为password。当我现在尝试在控制台中创建一个 Solr 核心时 bin\solr create -c test 我收到 HTTP 错
c# - EF 核心 - 为没有连接字符串和另一个类库中的数据库创建迁移
我想为与使用它的项目不同的类库中的第二个和后续数据库创建迁移。有皱纹。我永远不会知道连接字符串，直到用户登录并且我可以从目录数据库 (saas) 中获取它。对于目录数据库，我使用了来自 this 的
haskell - 编译到 GHC 核心
我想为一种可以产生 GHC Core 的简单语言创建一个前端。然后我想获取这个输出并通过正常的 GHC 管道运行它。根据this page , 不能直接通过 ghc 命令实现。我想知道是否有任何方法可
bluetooth-lowenergy - 核心-蓝牙双向通信
阅读文档，我构建了 2 个使用 BLE 连接 2 个 iDevices 的应用程序。一个设备是中央设备，另一个是外围设备。 Central在寻找Peripheral，当找到它时，探索它的服务和特性，
.net - 如何将参数传递给排队的后台任务(.net 核心)
在我的网络应用程序中，我对长时间运行的任务进行了操作，我想在后台调用此任务。因此，根据文档 .net core 3.1 Queued background tasks我为此使用这样的代码: publi
solr - 如何使用现有数据创建 solr 核心？
Solr 1.4 Enterprise Search Server 建议对核心副本进行大量更新，然后将其换成主核心。我正在按照以下步骤操作: 创建准备核心:http://localhost:8983/
jquery - 核心 jQuery 库的单元测试
它们是否存在，如果存在，文档和代码在哪里？最佳答案它们位于 Git 的 test 目录中。 https://github.com/jquery/jquery/tree/master/test 关于
compilation - 如何将参数传递给保存的 SBCL 核心？
我有一个 Lisp (SBCL 1.0.40.0.debian) 应用程序 (myfitnessdata)，它使用以下代码来处理命令行参数: (:use :common-lisp) (:export
performance - 阅读 GHC 核心
Core是GHC的中间语言。阅读Core可以帮助你更好地了解程序的性能。有人向我索要有关阅读 Core 的文档或教程，但我找不到太多。有哪些文档可用于阅读 GHC Core？这是我迄今为止发现的内
azure - 核心 WebJob 未观察到应用程序设置
我有一个核心 WebJob 部署到 Azure Web 应用程序中。我正在使用WebJobs version 3.0.6 . 我注意到，WebJob 代码不会立即拾取对连接字符串和应用程序设置的更改(
.net - 核心 .NET 运行时中的断点？
我有一个在内部构造和使用 SqlConnection 类的第三方库。我可以从该类继承，但它有大量重载，到目前为止我一直无法找到合适的重载。我想要的是将参数附加到正在使用的连接字符串。有没有办法在 .

首页

博学

6Ren·AI

商城

multithreading - 为什么我的程序用一个核心而不是两个核心更快？