java - 什么启发式使用 TPL 来确定何时使用多核-6ren

java - 什么启发式使用 TPL 来确定何时使用多核

转载作者：塔克拉玛干更新时间：2023-11-03 03:51:38

我们知道 TPL(所以 PLINQ 也是如此)如果他认为任务很简单并在单核上执行，则不会消耗所有核。但即使是复杂的任务，他也会这样做!例如，这里是关于 Java 并行性的文章中的代码:

import org.openjdk.jmh.infra.Blackhole;
import org.openjdk.jmh.annotations.*;
import java.util.concurrent.TimeUnit;
import java.util.stream.IntStream;
import java.math.BigInteger;

@Warmup(iterations=5)
@Measurement(iterations=10)
@BenchmarkMode(Mode.AverageTime)
@OutputTimeUnit(TimeUnit.MICROSECONDS)
@State(Scope.Benchmark)
@Fork(2)
public class Factorial {
    private static final BigInteger ONE = BigInteger.valueOf(1);

    @Param({"10", "100", "1000", "10000", "50000"})
    private int n;

    public static BigInteger naive(int n) {
        BigInteger r = ONE;
        for (int i = 2; i <= n; ++i)
            r = r.multiply(BigInteger.valueOf(i));
        return r;
    }

    public static BigInteger streamed(int n) {
        if(n < 2) return ONE;
        return IntStream.rangeClosed(2, n).mapToObj(BigInteger::valueOf).reduce(BigInteger::multiply).get();
    }

    public static BigInteger streamedParallel(int n) {
        if(n < 2) return ONE;
        return IntStream.rangeClosed(2, n).parallel().mapToObj(BigInteger::valueOf).reduce(BigInteger::multiply).get();
    }

    public static BigInteger fourBlocks(int n) {
        if(n < 2) return ONE;
        BigInteger r1 = ONE, r2 = ONE, r3 = ONE, r4 = ONE;
        int i;
        for (i = n; i > 4; i -= 4)
        {
            r1 = r1.multiply(BigInteger.valueOf(i));
            r2 = r2.multiply(BigInteger.valueOf(i - 1));
            r3 = r3.multiply(BigInteger.valueOf(i - 2));
            r4 = r4.multiply(BigInteger.valueOf(i - 3));
        }
        int mult = i == 4 ? 24 : i == 3 ? 6 : i == 2 ? 2 : 1;
        return r1.multiply(r2).multiply(r3.multiply(r4)).multiply(BigInteger.valueOf(mult));
    }

    public static BigInteger streamedShift(int n) {
        if(n < 2) return ONE;
        int p = 0, c = 0;
        while ((n >> p) > 1) {
            p++;
            c += n >> p;
        }
        return IntStream.rangeClosed(2, n).map(i -> i >> Integer.numberOfTrailingZeros(i))
                .mapToObj(BigInteger::valueOf).reduce(BigInteger::multiply).get().shiftLeft(c);
    }

    public static BigInteger streamedParallelShift(int n) {
        if(n < 2) return ONE;
        int p = 0, c = 0;
        while ((n >> p) > 1) {
            p++;
            c += n >> p;
        }
        return IntStream.rangeClosed(2, n).parallel().map(i -> i >> Integer.numberOfTrailingZeros(i))
                .mapToObj(BigInteger::valueOf).reduce(BigInteger::multiply).get().shiftLeft(c);
    }

    @Benchmark    
    public void testNaive(Blackhole bh) {
        bh.consume(naive(n));
    }

    @Benchmark    
    public void testStreamed(Blackhole bh) {
        bh.consume(streamed(n));
    }

    @Benchmark    
    public void testStreamedParallel(Blackhole bh) {
        bh.consume(streamedParallel(n));
    }

    @Benchmark    
    public void testFourBlocks(Blackhole bh) {
        bh.consume(fourBlocks(n));
    }

    @Benchmark    
    public void testStreamedShift(Blackhole bh) {
        bh.consume(streamedShift(n));
    }

    @Benchmark    
    public void testStreamedParallelShift(Blackhole bh) {
        bh.consume(streamedParallelShift(n));
    }
}

和结果:

Benchmark                              (n)  Mode  Cnt       Score       Error  Units
Factorial.testFourBlocks                10  avgt   20       0.409 ±     0.027  us/op
Factorial.testFourBlocks               100  avgt   20       4.752 ±     0.147  us/op
Factorial.testFourBlocks              1000  avgt   20     113.801 ±     7.159  us/op
Factorial.testFourBlocks             10000  avgt   20   10626.187 ±    54.785  us/op
Factorial.testFourBlocks             50000  avgt   20  281522.808 ± 13619.674  us/op
Factorial.testNaive                     10  avgt   20       0.297 ±     0.002  us/op
Factorial.testNaive                    100  avgt   20       5.060 ±     0.036  us/op
Factorial.testNaive                   1000  avgt   20     277.902 ±     1.311  us/op
Factorial.testNaive                  10000  avgt   20   32471.921 ±  1092.640  us/op
Factorial.testNaive                  50000  avgt   20  970355.227 ± 64386.653  us/op
Factorial.testStreamed                  10  avgt   20       0.326 ±     0.002  us/op
Factorial.testStreamed                 100  avgt   20       5.393 ±     0.190  us/op
Factorial.testStreamed                1000  avgt   20     265.550 ±     1.772  us/op
Factorial.testStreamed               10000  avgt   20   29871.366 ±   234.457  us/op
Factorial.testStreamed               50000  avgt   20  894549.237 ±  5453.425  us/op
Factorial.testStreamedParallel          10  avgt   20       6.114 ±     0.500  us/op
Factorial.testStreamedParallel         100  avgt   20      10.719 ±     0.786  us/op
Factorial.testStreamedParallel        1000  avgt   20      72.225 ±     0.509  us/op
Factorial.testStreamedParallel       10000  avgt   20    2811.977 ±    14.599  us/op
Factorial.testStreamedParallel       50000  avgt   20   49501.716 ±   729.646  us/op
Factorial.testStreamedParallelShift     10  avgt   20       6.684 ±     0.549  us/op
Factorial.testStreamedParallelShift    100  avgt   20      11.176 ±     0.779  us/op
Factorial.testStreamedParallelShift   1000  avgt   20      71.056 ±     3.918  us/op
Factorial.testStreamedParallelShift  10000  avgt   20    2641.108 ±   142.571  us/op
Factorial.testStreamedParallelShift  50000  avgt   20   46480.544 ±   405.648  us/op
Factorial.testStreamedShift             10  avgt   20       0.402 ±     0.006  us/op
Factorial.testStreamedShift            100  avgt   20       5.086 ±     0.039  us/op
Factorial.testStreamedShift           1000  avgt   20     237.279 ±     1.566  us/op
Factorial.testStreamedShift          10000  avgt   20   27572.709 ±   135.489  us/op
Factorial.testStreamedShift          50000  avgt   20  874699.213 ± 53645.087  us/o

您可以看到多线程版本的执行速度比单线程快 19 倍(使用了Core i7-4702MQ)。但是在C#版本中

static BigInteger Streamed(int n)
{
    return n < 2 ? 1 : Enumerable.Range(2, n - 1).Aggregate(BigInteger.One, (acc, elm) => acc*elm);
}

static BigInteger StreamedParallel(int n)
{
    return n < 2 ? 1 : Enumerable.Range(2, n - 1).AsParallel().Aggregate(BigInteger.One, (acc, elm) => acc * elm);
}

与所有其他代码相比，此代码的性能最差，这并不奇怪，因为 TPL 开销没有从多线程中获得性能优势。

所以问题是:为什么 Java 标准多线程库如此明智(任何需要 100us+ 的操作都会被提升，参见引用 http://gee.cs.oswego.edu/dl/html/StreamParallelGuidance.html)，而 C# 不能提升我的 1500ms 的操作机器。

我喜欢 C# 而不是真的很喜欢 Java，这就是它带来伤害的原因，我想了解它的原因...

最佳答案

当像这样使用Aggregate 方法时，PLinq 将按顺序执行聚合，因此在单个线程上执行。当然，乘法可以按任何顺序执行，但 PLinq 无法猜测。例如，如果操作是除法，则更改执行顺序会改变最终结果。

告诉 PLinq 查询可以并行化的一种方法是使用另一个聚合重载，它指示如何合并来自多个线程的结果:

return n < 2 ? 1 : Enumerable.Range(2, n - 1).AsParallel().Aggregate(BigInteger.One, (acc, elm) => acc * elm, (i, j) => i * j, i => i);

对于这个版本，当 n = 100000 时，顺序版本大约需要 9000 毫秒，并行版本需要 4400 毫秒。这几乎快了一倍，这与我的硬件(双核处理器)一致。

您可以阅读这篇文章，了解有关聚合如何与 PLinq 协同工作的更多信息:http://blogs.msdn.com/b/pfxteam/archive/2008/01/22/7211660.aspx

关于java - 什么启发式使用 TPL 来确定何时使用多核，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29669009/

文章推荐： java - Spring 数据方面在 Intellij 14 中不起作用

文章推荐： Java Streams - 有效地对排序流上的项目进行分组

文章推荐： algorithm - 如何模拟纳什均衡

tpl-dataflow - 使用谓词时 TPL 数据流永远不会完成
我有以下 TPL 数据流，当使用谓词过滤从 TransformBlock 传递到 ActionBlock 的项目时，它永远不会完成。如果谓词对任何项目返回 false，则数据流挂起。请有人提供一些
html - smarty tpl 文件没有正确读取 tpl 文件
我是 smarty 的新手，所以我不确定这是否会导致我遗漏某些内容，但目前我正在尝试从 css 文件中提取一个类。到目前为止，我已经设置了 2 个类 mainbackground 和 body，ma
c# - TPL - 如何强制 TPL 使用固定的线程数？不低于
如何强制 TPL 使用固定数量的线程？我知道 MaxDegreeOfParallelism 可用于设置上限，但我希望上限等于下限。这可能吗？怎么办？因为我知道有人会问 =) 是的，我确定我想这样做，
java - Sencha GXT XTemplate tpl for inside tpl for
我正在尝试使用 GXT 3.0 的 XTemplates(类似于 EXT)，这里有 2 个具有以下关系的简单 java 对象: class A { String name; public
.net - 在 VS 2012 RC 中引用 TPL 数据流和 TPL 的问题
我刚刚将 Visual Studio 11 Beta 升级到新的 Visual Studio 2012 RC，并且在引用 TPL 数据流时遇到了问题。首先，我尝试像以前一样通过从框架中添加引用来引用
.net - TPL 数据流与普通信号量
我需要制作可扩展的流程。该进程主要有 I/O 操作和一些次要的 CPU 操作(主要是反序列化字符串)。该过程在数据库中查询 url 列表，然后从这些 url 中获取数据，将下载的数据反序列化为对象，然
.net - TPL 数据流管道的吞吐量
我们有一个 TPL 数据流管道，其中包含以下 block : 变换 block A:Http post call 转换 block B:数据库 IO Transform Block C:一些单位转换数
.net - TPL 数据流链接到多个消费者不起作用
我有一个 BufferBlock 来发布消息: public class DelimitedFileBlock : ISourceBlock { private ISourceBlock _s
multithreading - TPL 中的最大任务数？
我想在 Windows Azure 上的工作进程中使用 TPL。我希望在队列中添加一个 IJob，它有一个 Run 方法，因此工作线程将包括: 循环将项目从队列中取出使用TPL调用IJob.Run
.net - TPL 数据流管道设计基础知识
我尝试创 build 计良好的 TPL 数据流管道，以优化系统资源的使用。我的项目是一个 HTML 解析器，它将解析后的值添加到 SQL Server DB 中。我已经有了 future 管道的所有方
Drupal 7如何覆盖特定内容类型的page.tpl？
我想为特定的内容类型覆盖 page.tpl.php。我已经尝试过这些东西，对我没有任何作用。 page--article.tpl.php page--node--article.tpl.php pa
multithreading - TPL 有什么了不起
我已经完成了这个 POC 并验证了当你创建 4 个线程并在四核机器上运行它们时，所有的核心都会变得忙碌——所以，CLR 已经在不同的核心上有效地调度了线程，那么为什么要使用 TASK 类呢？我同意
c# - TPL 和内存管理
使用Visual Studio Concurrency Visualizer我现在明白为什么切换到 Parallel.For 没有任何好处:只有 9% 的时间机器忙于执行代码，其余的时间为 71% 的
.net - TPL 取消延续从未调用已取消的任务
我的代码中有以下使用 TPL 的设置: 我的类中的一个字段:private CancellationTokenSource _cancellationTokenSource; 每次我创建使用特定取消
.net - 用于长时间运行任务的线程池或 TPL
我有一个 Windows 服务，它在经过漫长的过程后发送电子邮件。每当有表条目并处理它并将其发送出去时，该服务就会继续从数据库表中获取电子邮件数据。目前它是一个多线程应用程序，我们在生产服务器中将线
.net - TPL 数据流生产者消费者模式
刚刚使用 TPL DataFlow 编写了示例生产者消费者模式。我在这里有一些基本问题。只有在生产者发布所有项目后，消费者才处于事件状态。异步是指生产任务和消费任务都可以并行运行。给消费者一个 s
.net - TPL 任务如何将中间结果发送到父线程？
我正在使用 TPL，需要有一个长时间运行的 TPL 任务将结果发送到父 UI 线程而不终止。我已经尝试了几种方法，并且已经在谷歌上搜索了很多。有谁知道如何通过 TPL 实现这一点？最佳答案您可以传
c# - TPL 数据流优化
我有一个以这种方式设置的 TPL 数据流: 下载字节数组处理数据将处理后的数据流式传输到另一个位置此流程运行良好，但偶尔会在下载文件时遇到备份、连接问题等。我想做的是并行下载，但仍确保执行第 3
c# - TPL 数据流和控制台应用程序不会终止应用程序
我有一个应该批量调用并压缩大文件的控制台应用程序，我想使用 DataFlow，除了完成之外一切正常请考虑以下代码 public static void CompressFiles(string fo
c# - 并行编程 TPL
当你生成多个任务时，像这样: for (int i = 0; i ((stateObject) => { tls.Value = (int)stateObject;

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 什么启发式使用 TPL 来确定何时使用多核