haskell - Haskell 中并行构建树的策略-6ren

haskell - Haskell 中并行构建树的策略

转载作者：行者123 更新时间：2023-12-02 13:56:45

25

4

我有一个项目正在构建 Decision Tree在 haskell 。生成的树将具有多个彼此独立的分支，因此我认为它们可以并行构造。

DecisionTree 数据类型定义如下:

data DecisionTree =
    Question Filter DecisionTree DecisionTree |    
    Answer DecisionTreeResult

instance NFData DecisionTree where
    rnf (Answer dtr)            = rnf dtr
    rnf (Question fil dt1 dt2)  = rnf fil `seq` rnf dt1 `seq` rnf dt2

这是构造树的算法部分

constructTree :: TrainingParameters -> [Map String Value] -> Filter -> Either String DecisionTree    
constructTree trainingParameters trainingData fil =    
    if informationGain trainingData (parseFilter fil) < entropyLimit trainingParameters    
    then constructAnswer (targetVariable trainingParameters) trainingData    
    else
        Question fil <$> affirmativeTree <*> negativeTree `using` evalTraversable parEvalTree    
        where   affirmativeTree   = trainModel trainingParameters passedTData    
                negativeTree      = trainModel trainingParameters failedTData    
                passedTData       = filter (parseFilter fil) trainingData    
                failedTData       = filter (not . parseFilter fil) trainingData

parEvalTree :: Strategy DecisionTree    
parEvalTree (Question f dt1 dt2) = do    
    dt1' <- rparWith rdeepseq dt1    
    dt2' <- rparWith rdeepseq dt2    
    return $ Question f dt1' dt2'
parEvalTree ans = return ans

trainModel 递归调用constructTree。并行性的相关行是

Question fil <$> affirmativeTree <*> negativeTree `using` evalTraversable parEvalTree

我正在使用 GHcflags -threaded -O2 -rtsopts -eventlog 构建它并使用堆栈执行--性能测试+RTS -A200M -N -s -l(我使用的是 2 核机器)。

但它似乎没有并行运行任何东西

SPARKS: 164 (60 converted, 0 overflowed, 0 dud, 0 GC'd, 104 fizzled)

INIT    time    0.000s  (  0.009s elapsed)
MUT     time   29.041s  ( 29.249s elapsed)
GC      time    0.048s  (  0.015s elapsed)
EXIT    time    0.001s  (  0.006s elapsed)
Total   time   29.091s  ( 29.279s elapsed)

我怀疑 rdepseq 的递归调用和并行策略可能存在一些问题。如果有经验丰富的 Haskeller 能插话，那真的会让我很开心:)

最佳答案

我不是 Haskell 性能/并行性方面的专家，但我认为这里发生了一些事情。

首先，确实有这一行:

Question fil <$> affirmativeTree <*> negativeTree `using` evalTraversable parEvalTree

据推测，人们可能会期望该行的第一部分构建一个看起来像这样的数据结构

                      +-------+
                      | Right |
                      +-------+
                          |
                    +----------+
                    | Question |
                    +----------+
                     |   |    |
   +-----------------+   |    +-----------+
   |                +----+                |
   |                |                     |
+-----+   +-------------------+   +----------------+
| fil |   |       THUNK       |   |     THUNK      |
+-----+   | (affirmativeTree) |   | (negativeTree) |
          +-------------------+   +----------------+

然后，evalTraversable 将看到 Right 并在 Question 上运行 parEvalTree，从而产生两个 thunk并行进行深度评估。

不幸的是，事实并非如此，我认为问题是由于额外的 Either String 造成的。为了评估 Question 行(甚至只是 WHNF)，正如 evalTraversable 必须的那样，我们必须弄清楚结果是否是一个 Right decisonTree 或 Left _。这意味着在 parEvalTree 发挥作用之前，必须将 affirmativeTree 和 NegativeTree 评估为 WHNF。不幸的是，由于代码的结构，以这种方式将任一树评估为 WHNF 几乎会强制执行所有操作 — 必须强制选择过滤器才能查看递归 constructTree 调用采用哪个分支，然后它自己对 trainModel 的递归调用被强制以相同的方式进行 WHNF。

可以通过先分别触发 affirmativeTree 和 necessiveTree 来避免这种情况，然后在完全计算完之后才查看 WHNF 形式的结果，通过执行以下操作:

uncurry (Question fil) <$> bisequence ((affirmativeTree, negativeTree) `using` parTuple2 rdeepseq rdeepseq)

如果您使用此行替换原始代码来运行代码并将其加载到 ThreadScope 中，您将看到并行度明显有所增加:事件图在一些地方短暂地超过 1，并且执行在 HEC 之间跳转几个地方。不幸的是，程序的绝大多数时间仍然花在顺序执行上。

我尝试对此进行了一些研究，并且我认为您的树构建代码中的某些内容可能有点右偏。我添加了一些 traceMarker 和 traceEvent ，看起来过滤器的正负之间经常存在相当大的不平衡，这使得并行执行不起作用非常好:正子树往往会非常快地完成，而负子树则需要很长时间，从而创建看起来基本上是顺序执行的东西。在某些情况下，正子树非常小，以至于引发计算的核心完成计算，然后在另一个核心醒来窃取工作之前开始负子树。这就是 ThreadScope 中单核上长时间运行的来源。您可以在图表开头看到的具有相当多并行性的短时间段是执行第一个过滤器的负子树的时间，因为这是主过滤器，其负子树足够大以真正做出贡献到并行性。在跟踪的后面还有一些类似的(但小得多)事件，其中创建了合理大小的负树。

我希望如果您进行上述更改并尝试找到更均匀地划分数据集的过滤器，您应该会看到此代码的并行性有相当大的提高。

关于haskell - Haskell 中并行构建树的策略，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53691641/

25

4

0

文章推荐： MSBuild - 确定解决方案的 _PublishedWebsites

文章推荐： javascript 多维数组使用拆分为新数组

文章推荐： pdf - 使用 PDFBox 获取每一行的字体

三种缓存策略：Cache Aside 策略、Read/Write Through 策略、Write Back 策略
作者：小林coding 计算机八股文网站：https://xiaolincoding.com 大家好，我是小林。今天跟大家聊聊，常见的缓存更新策略。 Cache Aside（旁路缓存）策略； Rea
git - Mercurial merge 策略 vs Git merge 策略
我使用 git 多年，最近为了一个项目改用 mercurial。在过去的 6 个月里，我已经学会了如何通过命令行很好地使用 Mercurial。这可能是我的想象，但在我看来，mercurial 在
oauth-2.0 - Passport & JWT & Google/Facebook 策略 - 我如何结合 JWT 和 Google/Facebook 策略？
这个问题适合任何熟悉的人 Node.js express Passport 带有 Passport 的 JWT 身份验证(JSON Web token ) Facebook OAuth2.0 或谷歌
记录平等的 Coq 策略？
在 Coq 中，当试图证明记录的相等性时，是否有一种策略可以将其分解为所有字段的相等性？例如， Record R := {x:nat;y:nat}. Variables a b c d : nat.
javascript Bootstrap 策略
我正在处理的项目目前只有一个 Bootstrap 文件，用于初始化应用程序中的所有 javascript 对象。类似于下面的代码 if(document.getElementById('nav'))
ubuntu - OpenLDAP 策略
我正在考虑使用 OpenLDAP 在首次登录时添加密码到期和强制更改密码。似乎使用 ppolicy 覆盖来实现这一点。当我在 ppolicy.schema 中看到这个时，我开始使用 ppolicy
避免显卡敏感性的 WPF 策略？
这基本上是我昨天问的一个问题的重新陈述，因为我得到的一个答案似乎没有理解我的问题，所以我一定是不清楚。我的错。因为 WPF 依赖于 DirectX，所以它对卡和驱动程序的内部非常敏感。我有一个案例，
SAML NameId 策略
我是单点登录(SSO)概念的新手。我开始知道 SAML 请求和响应是实现 SSO 流程的最佳方式。然后我开始阅读有关 SAML2.0 的信息。我来了一个术语 NameIdPolicy 在 saml1.
新雪豹用户的 Perl 策略？
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
.NET 混淆工具/策略
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
用于限制数据库扩展的 Azure 策略
在 Azure 上创建新的 SQL 数据库时，它将“计算+存储”选项设置为“2 vCore + 32GB 数据最大大小”作为默认配置，但我不想使用 vCore，我可以更改它。但问题是，是否可以通过策略
Azure 策略 - 防止在未经身份验证的情况下创建应用程序服务
我希望创建一项策略，防止在未启用身份验证的情况下创建应用服务(仅审核它们是不够的)。以下策略可以正确识别未启用身份验证的现有资源: { "mode": "All", "policyRule"
Azure 策略创建一个deployifnotexists 策略
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错，但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
Azure 策略创建一个deployifnotexists 策略
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错，但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
Django json 策略？
我正在使用 wunderground 的 json api 来查询我网站上的天气状况。 api 为我提供了一个包含所有必要数据的漂亮 json 对象，但我每天只能进行多次调用。存储这些数据的首选方式是
Java OOP 策略
我有一个名为可视化数据结构的项目。我有这样的 OOP 设计。 Class VisualDataStructures extends JFrame Class ControlPanel extends
javascript "include"策略
这个问题在这里已经有了答案: 关闭 14 年前。副本: Use javascript to inject script references as needed? Javascript 没有任何指
Android StrictMode 策略
Android 应用程序遇到了一些 ANR 问题，因此我实现了 StrictMode 策略。以前从未使用过这个，所以希望有人可以帮助解释以下内容: 为什么日志显示 2 个看似相似的违规行为，除了前 4
algorithm - 寻找酒店谜语的算法/策略
我目前正在尝试解决一个问题。假设我们在路上行驶，我们知道路上有 10 家酒店。每家酒店都有 0 到 6 星。我的问题是:找到选择星级酒店的最佳解决方案。唯一的问题是:您不能回头去参观您已经决定不去的酒
安卓 MVP 策略
我正在将我的应用程序迁移到 MVP。从这个 konmik 中获得了有关静态演示者模式的提示这是我的简要 MVP 策略。为简洁起见，删除了大部分样板和 MVP 监听器。这个策略帮助我改变了方向，证明了

首页

博学

6Ren·AI

商城

haskell - Haskell 中并行构建树的策略