performance - 可变的(可能是并行的)Haskell 代码和性能调优-6ren

performance - 可变的(可能是并行的)Haskell 代码和性能调优

转载作者：行者123 更新时间：2023-12-04 04:26:52

25

4

我现在有 implemented another SHA3 候选者，即 GrøSTL。这仍在进行中(非常如此)，但目前 224 位版本通过了所有 KAT。所以现在我想知道性能(再次:->)。这次的不同之处在于，我选择了更接近 (optimized) C implementation 的镜像。，即我做了一个从 C 到 Haskell 的端口。优化的 C 版本使用表查找来实现算法。此外，代码很大程度上基于更新包含 64 位字的数组。因此我选择在 Haskell 中使用可变的未装箱向量。

我的 GrøSTL 代码可以在这里找到:https://github.com/hakoja/SHA3/blob/master/Data/Digest/GroestlMutable.hs

算法的简短描述:这是一个 Merkle-Damgård 结构，只要还有 512 位的消息 block ，就会迭代压缩函数(在我的代码中为 f512M )。压缩函数非常简单:它只是运行两个不同的独立 512 位排列电话和问 ( permP 和 permQ 在我的代码中)并结合它们的输出。它的这些排列是由查找表实现的。

Q1) 困扰我的第一件事是可变向量的使用使我的代码看起来非常丑陋。这是我第一次在 Haskell 中编写任何主要的可变代码，所以我真的不知道如何改进它。欢迎任何关于我如何更好地构建一元代码的提示。

Q2) 二是性能。其实还不错，因为目前 Haskell 代码只慢了 3 倍。使用 GHC-7.2.1 并编译如下:

ghc -O2 -Odph -fllvm -optlo-O3 -optlo-loop-reduce -optlo-loop-deletion

Haskell 代码使用 60s。在 ~1GB 的输入上，而 C 版本使用 21-22s。但有些地方我觉得很奇怪:

(1) 如果我尝试内联 rnd512QM ，代码需要 4 倍的时间，但如果我内联 rnd512PM 什么都没发生!为什么会这样？这两个功能几乎相同!

(2) 这可能更困难。我一直在尝试并行执行这两个排列。但目前无济于事。这是我尝试过的一个例子:

f512 h m = V.force outP `par` (V.force outQ `pseq` (V.zipWith3 xor3 h outP outQ))
   where xor3 x1 x2 x3 = x1 `xor` x2 `xor` x3
         inP = V.zipWith xor h m
         outP = permP inP
         outQ = permQ m

在检查运行时统计信息并使用 ThreadScope 时，我注意到创建了正确数量的 SPARKS，但实际上几乎没有一个转换为有用的并行工作。因此，我在加速方面一无所获。然后我的问题变成:

P 和 Q 函数是否太小以至于运行时无法并行运行？

如果没有，我使用的是 标准杆 和 pseq (可能还有 Vector.Unboxed.force)错了？

我会通过转换策略获得什么吗？我该怎么做呢？

非常感谢您的参与。

编辑:

很抱歉没有提供任何真正的基准测试。 repo 中的测试代码仅供我自己使用。对于那些想要测试代码的人，您需要编译 main.hs ，然后将其运行为:

./main "algorithm" "testvariant" "byte aligned"

例如:

./main groestl short224 False

或者

./main groestl e False

( e 代表“Extreme”。这是 NIST KATS 提供的非常长的信息)。

最佳答案

我查看了 repo，但没有简单的基准可以运行和使用，所以我的想法只是来自观察代码。编号与您的问题无关。

1) 我很确定force不会做你想做的事——它实际上强制复制底层向量。

2) 我认为 unsafeThaw 和 unsafeFreeze 的使用有点奇怪。我只是将 f512M 放在 ST monad 中并完成它。然后像这样运行它:

otherwise = \msg -> truncate G224 . outputTransformation . runST $ foldM f512M h0_224 (parseMessage dataBitLen 512 msg)

3) V.foldM'有点傻——你可以在一个列表上使用一个普通的(严格的) foldM ——在第二个参数中折叠向量似乎没有买任何东西。

4) 我对 columnM 中的刘海持怀疑态度对于 unsafeReads。

还...

a) 我怀疑异或未装箱向量的实现可能低于 zipWith ，利用 Data.Vector 内部。

b) 但是，最好不要这样做，因为它可能会干扰向量融合。

c) 经检查， extractByte看起来效率有点低？与其使用 fromIntegral 截断，不如使用 mod或 quot然后单个 fromIntegral 将您直接带到 Int。

关于performance - 可变的(可能是并行的)Haskell 代码和性能调优，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8155929/

25

4

0

文章推荐： vim - 在vim编辑器上获取拆分窗口的位置

文章推荐： user-interface - Python-使用 ttk.Style 找出可以/不能更改的值

文章推荐： multithreading - 从线程本身内部取消异步线程

文章推荐： google-maps-api-3 - 谷歌地图 V3 : drawing library

R同时运行2个不同的代码块(并行)
有没有办法同时运行 2 个不同的代码块。我一直在研究 R 中的并行包，它们似乎都基于在循环中运行相同的函数。我正在寻找一种同时运行不同函数的方法(循环的 1 次迭代)。例如，我想在某个数据对象上创建一
C# 并行.For
无论如何增加 Parallel.For 启动后的循环次数？示例如下: var start = 0; var end = 5; Parallel.For(start, end, i => { C
Golang 并行
我是 Golang 的新手，正在尝试了解并发和并行。我阅读了下面提到的关于并发和并行的文章。我执行了相同的程序。但没有得到相同的(混合字母和字符)输出。首先获取所有字母，然后获取字符。似乎并发不工作，
R 同时循环遍历两个或多个向量 - 并行
我正在寻找同时迭代 R 中两个或多个字符向量/列表的方法，例如。有没有办法做这样的事情: foo <- c('a','c','d') bar <- c('aa','cc','dd') for(i in
Raku 并行/函数方法
我对 Raku 很陌生，我对函数式方法有疑问，尤其是 reduce。我最初有这样的方法: sub standardab{ my $mittel = mittel(@_); my $foo =
multithreading - 并行/多处理器音频处理资源
我最近花了很多时间来学习实时音频处理的细节，我发现的大多数库/工具都是c / c++代码或脚本/图形语言的形式，并在其中编译了c / c++代码。引擎盖。使用基于回调的API，与GUI或App中的其
Jmeter for循环http请求-并行
我正在使用 JMeter 进行图像负载测试。我有一个图像名称数组并遍历该数组，我通过 HTTP 请求获取所有图像。 -> loop_over_image - for loop controller
python 并行 Popen
我整个晚上都在困惑这个问题...... makeflags = ['--prefix=/usr','--libdir=/usr/lib'] rootdir='/tmp/project' ps = se
c# - 并行 C#
我正在尝试提高计算图像平均值的方法的性能。为此，我使用了两个 For 语句来迭代所有图像，因此我尝试使用一个 Parallel For 来改进它，但结果并不相同。我做错了吗？或者是什么导致了差异？
c++ - 并行 for 循环体的最佳大小
假设您有一个并行 for 循环实现，例如ConcRT parallel_for，将所有工作放在一个 for 循环体内总是最好的吗？举个例子: for(size_t i = 0; i < size()
C#并行，如何设置线程数
我想并行运行一部分代码。目前我正在使用 Parallel.For 如何让10、20或40个线程同时运行我当前的代码是: Parallel.For(1, total, (ii) =>
Paypal自适应支付(并行)550001错误
我使用 PAY API 进行了 PayPal 自适应并行支付，其中无论用户(买家)购买什么，都假设用户购买了总计 100 美元的商品。在我的自适应并行支付中，有 2 个接收方:Receiver1 和
algorithm - 并行/集群中图形节点分组的有效算法
我正在考虑让玩家加入游戏的高效算法。由于会有大量玩家，因此算法应该是异步的(即可扩展到集群中任意数量的机器)。有细节:想象有一个无向图(每个节点都是一个玩家)。玩家之间的每条边意味着玩家可以参加同一场
Java 并行 volatile i++
我有一个全局变量 volatile i = 0; 和两个线程。每个都执行以下操作: i++; System.out.print(i); 我收到以下组合。 12、21 和 22。我理解为什么我没有得到
c++ - OpenMp 并行
我有以下称为 pgain 的方法，它调用我试图并行化的方法 dist: /***************************************************************
Ruby 并行/多线程编程来读取巨大的数据库
我有一个 ruby 脚本读取一个巨大的表(约 2000 万行)，进行一些处理并将其提供给 Solr 用于索引目的。这一直是我们流程中的一大瓶颈。我打算在这里加快速度，我想实现某种并行性。我对 Ru
Golang 和并发/并行
我正在研究 Golang 并遇到一个问题，我已经研究了几天，我似乎无法理解 go routines 的概念以及它们的使用方式。基本上我是在尝试生成数百万条随机记录。我有生成随机数据的函数，并将创建一
for-loop - 并行 For 循环
我希望 for 循环使用 go 例程并行。我尝试使用 channel ，但没有用。我的主要问题是，我想在继续之前等待所有迭代完成。这就是为什么在它不起作用之前简单地编写 go 的原因。我尝试使用 ch
haskell - 并行 IO 导致终端出现随机文本输出
我正在使用 import Control.Concurrent.ParallelIO.Global main = parallel_ (map processI [1..(sdNumber runPa
R:并行 makePSOCKcluster 挂起
我正在尝试通过 makePSOCKcluster 连接到另一台计算机: library(parallel) cl ... doTryCatch -> recvData -> makeSOCKm

首页

博学

6Ren·AI

商城

performance - 可变的(可能是并行的)Haskell 代码和性能调优