performance - Haskell 中 hFlush 的高 CPU 使用率-6ren

performance - Haskell 中 hFlush 的高 CPU 使用率

转载作者：行者123 更新时间：2023-12-04 02:55:42

26

4

我发现以下 Haskell 代码使用 100% CPU，在我的 Linux 服务器上大约需要 14 秒才能完成。

{-# LANGUAGE OverloadedStrings #-}
module Main where

import qualified Data.ByteString.Lazy.Char8 as L
import System.IO

str = L.pack "FugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFuga\n"

main = do
  hSetBuffering stdout (BlockBuffering (Just 1000))
  sequence (take 1000000 (repeat (L.hPutStr stdout str >> hFlush stdout)))
  return ()

另一方面，非常相似的 Python 代码在大约 3 秒内完成相同的任务。

import sys

str = "FugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFuga\n"

def main():
    for i in xrange(0, 1000000):
        print str,
        sys.stdout.flush()
        # doIO()

main()

通过strace，我发现在Haskell版本中每次调用hFlush时都会调用select。另一方面，在 Python 版本中不调用 select。我想这是 Haskell 版本速度慢的原因之一。

有什么方法可以提高 Haskell 版本的性能吗？

我已经尝试省略 hFlush，它确实大大降低了 CPU 使用率。但是这个解决方案是不可满足的，因为它不刷新。

谢谢。

已编辑

非常感谢您的帮助!通过将 sequence and repeat 更改为 replicateM_，运行时间从 14 秒减少到 3.8 秒。

但现在我有另一个问题。我问上面的问题是因为当我从上面的程序中删除 hFlush 时，尽管它使用 sequence 和 repeat 重复 I/O，但它运行得很快。

为什么只有 sequence 和 hFlush 的结合才会变慢？

为了确认我的新问题，我按如下方式更改了我的程序以进行分析。

{-# LANGUAGE OverloadedStrings #-}
module Main where

import qualified Data.ByteString.Char8 as S
import System.IO
import Control.Monad

str = S.pack "FugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFuga\n"

doIO = S.hPutStr stdout str >> hFlush stdout
doIO' = S.hPutStr stdout str >> hFlush stdout
doIOWithoutFlush = S.hPutStr stdout str

main = do
  hSetBuffering stdout (BlockBuffering (Just 1000))
  sequence (take 1000000 (repeat doIO))
  replicateM_ 1000000 doIO'
  sequence (take 1000000 (repeat doIOWithoutFlush))
  return ()

编译运行如下:

$ ghc -O2 -prof -fprof-auto Fuga.hs
$ ./Fuga +RTS -p -RTS > /dev/null

我得到了以下结果。

COST CENTRE      MODULE  %time %alloc

doIO             Main     74.7   35.8
doIO'            Main     21.4   35.8
doIOWithoutFlush Main      2.6   21.4
main             Main      1.3    6.9

执行相同任务的 doIO 和 doIO' 之间有什么区别？为什么 doIOWithoutFlush 即使在顺序和重复中也运行得很快？是否有关于此行为的任何引用？

谢谢。

最佳答案

在每次写入时调用 hFlush 似乎是错误的。

这个简单的更改，使用严格的字节串，forM_ 或 replicateM_ 而不是您的显式 sequence 和 block 缓冲，减少了 16.2 的运行时间秒到 0.3 秒

{-# LANGUAGE OverloadedStrings #-}
module Main where

import qualified Data.ByteString.Char8 as S
import Control.Monad
import System.IO

str = S.pack "FugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFuga\n"

main = replicateM_ 1000000 $ S.putStr str

虽然更惯用的方法是使用惰性字节串的单次写入，依靠字节串子系统来协调写入。

import qualified Data.ByteString.Char8 as S
import qualified Data.ByteString.Lazy.Char8 as L
import Control.Monad
import System.IO

str :: S.ByteString
str = S.pack "FugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFugaFuga\n"

main = L.putStr $ L.fromChunks (replicate 1000000 str)

性能略有提高(0.27 秒)

关于performance - Haskell 中 hFlush 的高 CPU 使用率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13363142/

26

4

0

文章推荐： export - 无论如何，PHPExcel中是否可以在导出中隐藏值？

文章推荐： clang-tidy - 将子选项设置为 clang-tidy

文章推荐： r - 确定何时添加了 R 基本函数

文章推荐： swift3 - 使用 SWIFT 3 在 XCode 8 上进行动态 Storyboard重定向

cpu-usage - CPU 使用率和 CPU 使用率之间的区别？
我想知道在谈到 CPU 使用率和 CPU 利用率时，术语是否存在科学差异。我觉得这两个词都被用作同义词。它们都描述了 CPU 时间和 CPU 容量之间的关系。 Wikipedia称之为 CPU 使用率
cpu - CPU 指令重新排序的跟踪
我研究了一些关于处理器和 Tomasulo 算法的指令重新排序的内容。为了更深入地了解这个主题，我想知道是否有任何方法可以(获取跟踪)查看为给定程序完成的实际动态重新排序？我想给出一个输入程序并查
cpu-architecture - 本地 CPU 可能会降低远程 CPU 的数据包接收性能
我有一台配备 2 个 Intel Xeon CPU E5-2620 (Sandy Bridge) 和 10Gbps 82599 NIC(2 个端口)的服务器，用于高性能计算。从 PCI 关联性中，我看
cpu - 用户 CPU 时间 vs 系统 CPU 时间？
您能详细解释一下“用户 CPU 时间”和“系统 CPU 时间”吗？我读了很多，但我不太理解。最佳答案区别在于时间花在用户空间还是内核空间。用户 CPU 时间是处理器运行程序代码(或库中的代码)所花
cpu - 如何确定 CPU 是否与 ARM v5 cpu 指令兼容
我想知道如何识别 CPU 是否与 ARM v5 指令集兼容。假设 ARM v7 指令与 ARM v5 兼容是否正确？最佳答案您可以阅读 CPUID base register获得PARTNO。然
c - 如何在单个 CPU 的多个 cpu 内核上设置亲和性而不是在多个 CPU 上？
我目前在具有多个六核 CPU 的服务器上使用 C 多线程。我想将我的一些线程的亲和性设置为单个 CPU 的各个核心。我使用过 pthread_setaffinity_np() 和 sched_seta
android - 在traceview中Incl CPU Time，Excl CPU Time，Incl Real CPU Time，Excl Real CPU Time是什么意思？
1) 独占时间是在方法中花费的时间2) 包含时间是在方法中花费的时间加上在任何被调用函数中花费的时间3)我们称调用方法为“ parent ”，称方法为“子”。引用链接:Click here 这里的问题
c - 编写一段代码，该代码在新 cpu 上比在旧 cpu 上运行的 cpu 周期更多
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
cpu - 编译器完成的指令重新排序与 cpu 完成的指令重新排序之间有什么关系？
好的，所以编译器可以出于性能原因自由地重新排序代码片段。让我们假设一些代码片段，在没有应用优化的情况下直接翻译成机器代码，看起来像这样: machine_instruction_1 machine_i
cpu - "CPU jumps"是什么意思？
我在 zabbix 中有以下默认图表，但我不知道如何解释这些值。谁能解释一下？最佳答案操作系统是一件非常忙碌的事情，尤其是当你让它做某事时(即使你没有做)。当我们看到一个活跃的企业环境时，总会发生
cpu - 缓存是否具有 CPU 的字节序？
换句话说，L1、L2、L3 等缓存是否总是反射(reflect) CPU的字节序 ? 或者总是将数据存储在某些的缓存中更有意义吗？特定字节序 ? 有没有总体设计决策 ? 最佳答案大多数现代缓存不会
cpu - 现代 CPU 是否跳过乘法为零？
我想知道当前的 cpus 是否避免在其中至少一个为零时将两个数字相乘。谢谢最佳答案这取决于 CPU 和(在某些情况下)操作数的类型。较旧/较简单的 CPU 通常使用如下乘法算法: integer
cpu - CUDA 回退到 CPU？
我有一个 CUDA 应用程序，它在一台计算机(配备 GTX 275)上运行良好，而在另一台配备 GeForce 8400 的计算机上运行速度慢了大约 100 倍。我怀疑有某种回退使代码实际上在 CPU
cpu - 堆栈宽度是否始终与 CPU 寄存器大小相同？
例如，对于 8 位 CPU，堆栈大小预计为 8 位宽，16 位 CPU 与 16 位堆栈宽度，以及 32 位、64 位 CPU，等等。是否适用于所有架构？最佳答案 CPU 具有数据总线和地址总线。它
cpu - SIMD 是否需要多核 CPU？
实现 SIMD 是否需要多核 CPU？在阅读有关 SIMD 的维基百科时，我发现了以下短语“多处理元素”。那么这句话和“多核CPU”有什么区别呢？最佳答案不，每个内核通常都可以执行指令集中的大多
cpu - 了解 CPU 流水线阶段与指令吞吐量
我遗漏了一些基本的东西。 CPU 流水线:在基本层面上，为什么指令需要不同数量的时钟周期才能完成，为什么有些指令在多级 CPU 中只需要 1 个周期？除了明显的“不同的指令需要不同的工作量才能完成”
cpu - 超线程 CPU 是实现并行还是仅实现并发？
超线程 CPU 是实现并行还是仅实现并发(上下文切换)？我的猜测是没有并行性，只有通过上下文切换的并发性。最佳答案单个物理 CPU 具有超线程的核心显示为两个逻辑 CPU 到操作系统。 CPU
cpu - 理解 cpu 信息
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
cpu - 哪些 CPU 指令最耗电？
背景是这样的:下周我们的办公室将有一天因为维护而没有暖气。预计室外温度在 7 至 12 摄氏度之间，因此可能会变冷。可移植电取暖器数量太少，无法满足所有人的需求。但是，在我大约 6-8 平方米的办公
Docker cpu 共享并保证容器的最小分配 CPU
我开发了一个应用程序，该应用程序在我的开发箱上的三个容器中运行，该开发箱具有带超线程的四核，这意味着系统和 docker 使用 8 个核心。容器的 CPU 分配由 docker-compose 完成

首页

博学

6Ren·AI

商城

performance - Haskell 中 hFlush 的高 CPU 使用率