.net - MailboxProcessor 性能问题-6ren

.net - MailboxProcessor 性能问题

转载作者：行者123 更新时间：2023-12-04 03:04:26

我一直在尝试设计一个允许大量并发用户同时在内存中表示的系统。在着手设计这个系统时，我立即想到了某种基于 Actor 的解决方案，类似于 Erlang。

该系统必须在 .NET 中完成，因此我开始使用 MailboxProcessor 在 F# 中制作原型(prototype)，但遇到了严重的性能问题。我最初的想法是为每个用户使用一个参与者(MailboxProcessor)来序列化一个用户的通信。

我已经隔离了一小段代码，它重现了我看到的问题:

open System.Threading;
open System.Diagnostics;

type Inc() =

    let mutable n = 0;
    let sw = new Stopwatch()

    member x.Start() =
        sw.Start()

    member x.Increment() =
        if Interlocked.Increment(&n) >= 100000 then
            printf "UpdateName Time %A" sw.ElapsedMilliseconds

type Message
    = UpdateName of int * string

type User = {
    Id : int
    Name : string
}

[<EntryPoint>]
let main argv = 

    let sw = Stopwatch.StartNew()
    let incr = new Inc()
    let mb = 

        Seq.initInfinite(fun id -> 
            MailboxProcessor<Message>.Start(fun inbox -> 

                let rec loop user =
                    async {
                        let! m = inbox.Receive()

                        match m with
                        | UpdateName(id, newName) ->
                            let user = {user with Name = newName};
                            incr.Increment()
                            do! loop user
                    }

                loop {Id = id; Name = sprintf "User%i" id}
            )
        ) 
        |> Seq.take 100000
        |> Array.ofSeq

    printf "Create Time %i\n" sw.ElapsedMilliseconds
    incr.Start()

    for i in 0 .. 99999 do
        mb.[i % mb.Length].Post(UpdateName(i, sprintf "User%i-UpdateName" i));

    System.Console.ReadLine() |> ignore

    0

在我的四核 i7 上创建 100k 个 Actor 大约需要 800 毫秒。然后提交 UpdateName向每个参与者发送消息并等待他们完成大约需要 1.8 秒。

现在，我意识到所有队列都有开销:在 MailboxProcessor 内部的 ThreadPool、设置/重置 AutoResetEvents 等。但这真的是预期的表现吗？通过阅读 MSDN 和 MailboxProcessor 上的各种博客，我了解到它与 erlang Actor 类似，但从我看到的糟糕表现来看，这在现实中似乎并不成立？

我还尝试了代码的修改版本，它使用了 8 个 MailboxProcessor，每个都有一个 Map<int, User> map 用于通过 id 查找用户，它产生了一些改进，将 UpdateName 操作的总时间降低到 1.2 秒。但是感觉还是很慢，修改后的代码在这里:

open System.Threading;
open System.Diagnostics;

type Inc() =

    let mutable n = 0;
    let sw = new Stopwatch()

    member x.Start() =
        sw.Start()

    member x.Increment() =
        if Interlocked.Increment(&n) >= 100000 then
            printf "UpdateName Time %A" sw.ElapsedMilliseconds

type Message
    = CreateUser of int * string
    | UpdateName of int * string

type User = {
    Id : int
    Name : string
}

[<EntryPoint>]
let main argv = 

    let sw = Stopwatch.StartNew()
    let incr = new Inc()
    let mb = 

        Seq.initInfinite(fun id -> 
            MailboxProcessor<Message>.Start(fun inbox -> 

                let rec loop users =
                    async {
                        let! m = inbox.Receive()

                        match m with
                        | CreateUser(id, name) ->
                            do! loop (Map.add id {Id=id; Name=name} users)

                        | UpdateName(id, newName) ->
                            match Map.tryFind id users with
                            | None -> 
                                do! loop users

                            | Some(user) ->
                                incr.Increment()
                                do! loop (Map.add id {user with Name = newName} users)
                    }

                loop Map.empty
            )
        ) 
        |> Seq.take 8
        |> Array.ofSeq

    printf "Create Time %i\n" sw.ElapsedMilliseconds

    for i in 0 .. 99999 do
        mb.[i % mb.Length].Post(CreateUser(i, sprintf "User%i-UpdateName" i));

    incr.Start()

    for i in 0 .. 99999 do
        mb.[i % mb.Length].Post(UpdateName(i, sprintf "User%i-UpdateName" i));

    System.Console.ReadLine() |> ignore

    0

所以我的问题就在这里，我做错了吗？我是否误解了 MailboxProcessor 应该如何使用？或者这种表现是预期的。

更新:

所以我在##fsharp @ irc.freenode.net 上找到了一些人，他们告诉我使用 sprintf 非常慢，事实证明这是我很大一部分性能问题的根源。但是，删除上面的 sprintf 操作并为每个用户使用相同的名称，我仍然需要大约 400 毫秒来执行操作，这感觉真的很慢。

最佳答案

Now, I realize there is overhead from all the queue:ing on the ThreadPool, setting/resetting AutoResetEvents, etc internally in the MailboxProcessor.

和 printf , Map , Seq并争夺你的全局可变 Inc .而且您正在泄漏堆分配的堆栈帧。事实上，运行基准测试所花费的时间中只有一小部分与 MailboxProcessor 有任何关系。 .

But is this really the expected performance?

我对您的程序的性能并不感到惊讶，但它并没有说明 MailboxProcessor 的性能。 .

From reading both MSDN and various blogs on the MailboxProcessor I have gotten the idea that it's to be a kin to erlang actors, but from the abyssmal performance I am seeing this doesn't seem to hold true in reality?

MailboxProcessor在概念上有点类似于 Erlang 的一部分。您看到的糟糕表现是由多种原因造成的，其中一些非常微妙，会影响任何此类程序。

So my question is here, am I doing something wrong?

我认为你做错了一些事情。首先，您要解决的问题不清楚，所以这听起来像是 XY problem问题。其次，您正在尝试对错误的事物进行基准测试(例如，您提示创建 MailboxProcessor 所需的微秒时间，但可能仅在建立 TCP 连接时才打算这样做，这需要几个数量级的时间)。第三，您编写了一个基准程序来衡量某些事物的性能，但将您的观察结果归因于完全不同的事物。

让我们更详细地看一下您的基准测试程序。在我们做任何其他事情之前，让我们修复一些错误。您应该始终使用 sw.Elapsed.TotalSeconds测量时间，因为它更精确。您应该始终使用 return! 在异步工作流中重复出现。而不是 do!否则您将泄漏堆栈帧。

我最初的时间是:

Creation stage: 0.858s
Post stage: 1.18s

接下来，让我们运行一个配置文件以确保我们的程序确实花费大部分时间来处理 F# MailboxProcessor :

77%    Microsoft.FSharp.Core.PrintfImpl.gprintf(...)
 4.4%  Microsoft.FSharp.Control.MailboxProcessor`1.Post(!0)

显然不是我们所希望的。更抽象地思考，我们正在使用 sprintf 之类的东西生成大量数据。然后应用它，但我们正在一起进行生成和应用。让我们分离出我们的初始化代码:

let ids = Array.init 100000 (fun id -> {Id = id; Name = sprintf "User%i" id})
...
    ids
    |> Array.map (fun id ->
        MailboxProcessor<Message>.Start(fun inbox -> 
...
            loop id
...
    printf "Create Time %fs\n" sw.Elapsed.TotalSeconds
    let fxs =
      [|for i in 0 .. 99999 ->
          mb.[i % mb.Length].Post, UpdateName(i, sprintf "User%i-UpdateName" i)|]
    incr.Start()
    for f, x in fxs do
      f x
...

现在我们得到:

Creation stage: 0.538s
Post stage: 0.265s

因此，创建速度提高了 60%，发布速度提高了 4.5 倍。

让我们尝试完全重写您的基准:

do
  for nAgents in [1; 10; 100; 1000; 10000; 100000] do
    let timer = System.Diagnostics.Stopwatch.StartNew()
    use barrier = new System.Threading.Barrier(2)
    let nMsgs = 1000000 / nAgents
    let nAgentsFinished = ref 0
    let makeAgent _ =
      new MailboxProcessor<_>(fun inbox ->
        let rec loop n =
          async { let! () = inbox.Receive()
                  let n = n+1
                  if n=nMsgs then
                    let n = System.Threading.Interlocked.Increment nAgentsFinished
                    if n = nAgents then
                      barrier.SignalAndWait()
                  else
                    return! loop n }
        loop 0)
    let agents = Array.init nAgents makeAgent
    for agent in agents do
      agent.Start()
    printfn "%fs to create %d agents" timer.Elapsed.TotalSeconds nAgents
    timer.Restart()
    for _ in 1..nMsgs do
      for agent in agents do
        agent.Post()
    barrier.SignalAndWait()
    printfn "%fs to post %d msgs" timer.Elapsed.TotalSeconds (nMsgs * nAgents)
    timer.Restart()
    for agent in agents do
      use agent = agent
      ()
    printfn "%fs to dispose of %d agents\n" timer.Elapsed.TotalSeconds nAgents

此版本需要 nMsgs在该代理将增加共享计数器之前，该代理将增加共享计数器，从而大大降低该共享计数器的性能影响。该程序还检查不同数量的代理的性能。在这台机器上我得到:

Agents  M msgs/s
     1    2.24
    10    6.67
   100    7.58
  1000    5.15
 10000    1.15
100000    0.36

因此，您看到的 msgs/s 速度较低的部分原因似乎是代理数量异常多(100,000)。使用 10-1,000 个代理时，F# 实现的速度比使用 100,000 个代理时快 10 倍以上。

因此，如果您可以使用这种性能，那么您应该能够在 F# 中编写整个应用程序，但如果您需要获得更高的性能，我建议您使用不同的方法。通过采用像 Disruptor 这样的设计，您甚至可能不必牺牲使用 F#(当然您可以将它用于原型(prototype)设计)。在实践中，我发现在 .NET 上进行序列化所花费的时间往往比在 F# async 和 MailboxProcessor 上花费的时间要长得多。 .

关于.net - MailboxProcessor 性能问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17360286/

文章推荐： geolocation - 插件命令已重命名

文章推荐： python - 在 Windows 10 中找不到 Heroku 命令

文章推荐： apache - 漂亮的 jekyll 页面 url

文章推荐： web-hosting - github 和 namecheap 的域名主机记录

javascript - Ember.js，性能，性能 :
性能:数据存储写入与请求日志写入
我们希望通过我们的应用收集使用情况统计信息。因此，我们希望在服务器端的某个地方跟踪用户操作。就性能而言，哪个选项更合适: 在 App Engine 请求日志中跟踪用户操作。即为每个用户操作写入一个日
LINQ 性能
在针对对象集合的 LINQ 查询的幕后究竟发生了什么？它只是语法糖还是发生了其他事情使其更有效的查询？最佳答案您是指查询表达式，还是查询在幕后的作用？查询表达式首先扩展为“普通”C#。例如: v
WPF 性能
我正在构建一个简单的照片库应用程序，它在列表框中显示图像。 xaml 是:
java缓存系统和静态HashMap存储-性能
对于基于 Web 的企业应用程序，使用“静态 Hashmap 存储对象” 和 apache java 缓存系统有何优缺点？哪一个最有利于性能并减少堆内存问题例如: Map store=Applica
jquery存储变量类(性能)
我想知道在性能方面存储类变量的最佳方式是什么。我的意思是，由于 Children() 函数，存储一个 div id 比查找所有其他类名更好。还是把类名写在变量里比较好？例如这样: var $inne
Cassandra 性能
我已经阅读了所有这些关于 cassandra 有多快的文章，例如单行读取可能需要大约 5 毫秒。到目前为止，我不太关心我的网站速度，但是随着网站变得越来越大，一些页面开始需要相当多的查询，例如一个页
MySQL 性能
最近，我在缓存到内存缓存之前的查询一直需要很长时间才能处理!在这个例子中，它花费了 10 秒。在这种情况下，我要做的就是获得 10 个最近的点击。我感觉它加载了所有 125,592 行然后只返回 1
基本操作的C#性能
我找了几篇文章(包括SA中的一些问题)，试图找到基本操作的成本。但是，我尝试制作自己的小程序，以便自己进行测试。在尝试测试加法和减法时，我遇到了一些问题，我用简单的代码向您展示了这一点
Java远程调试——性能
这个问题在这里已经有了答案: Will Java app slow down by presence of -Xdebug or only when stepping through code? (
Javascript with() 性能
我记得很久以前读过 with() 对 JavaScript 有一些严重的性能影响，因为它可能对范围堆栈进行非确定性更改。我很难找到最近对此的讨论。这仍然是真的吗？最佳答案与其说 with 对性能有
MySQL 性能
我们有一个数据仓库，其中包含非规范化表，行数从 50 万行到 6 多万行不等。我正在开发一个报告解决方案，因此出于性能原因我们正在使用数据库分页。我们的报告有搜索条件，并且我们已经创建了必要的索引，但
mysql - 性能
我有一条有效的 SQL 语句，但需要很长时间才能处理我有一个 a_log 表和一个 people 表。我需要在 people 表中找到给定人员的每个 ID 的最后一个事件和关联的用户。 SELECT
JavaScript 性能
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
CSS 性能
通常当我建立一个站点时，我将所有的 CSS 放在一个文件中，并且一次性定义与一组元素相关的所有属性。像这样: #myElement { color: #fff; background-
CSS 性能
两者之间是否存在任何性能差异: p { margin:0px; padding:0px; } 并省略最后的分号: p { margin:0px; padding:0px } 提前致谢!
PHP高精数学-性能
我的应用程序 (PHP) 需要执行大量高精度数学运算(甚至可能出现一共100个数字) 通过这个论坛的最后几篇帖子，我发现我必须使用任何高精度库，如 BC Math 或 GMP，因为 float 类型不
Javamail 性能
我一直在使用 javamail 从 IMAP 服务器(目前是 GMail)检索邮件。 Javamail 非常快速地从服务器检索特定文件夹中的消息列表(仅 id)，但是当我实际获取消息(仅包含甚至不包含
ruby 性能
我非常渴望开发我的第一个 Ruby 应用程序，因为我的公司终于在内部批准了它的使用。在我读到的关于 Ruby v1.8 之前的所有内容中，从来没有任何关于性能的正面评价，但我没有发现关于 1.9 版
redis结构、性能
我是 Redis 的新手，我有一个包含数百万个成员(member) ID、电子邮件和用户名的数据集，并且正在考虑将它们存储在例如列表结构中。我认为 list 和 sorted set 可能最适合我的情

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

.net - MailboxProcessor 性能问题