java - 有没有办法强制 parallelStream() 并行？-6ren

java - 有没有办法强制 parallelStream() 并行？

转载作者：塔克拉玛干更新时间：2023-11-03 04:50:13

27

4

如果输入大小太小，库 automatically serializes the execution of the maps in the stream ，但这种自动化没有也不能考虑 map 操作的繁重程度。有没有办法强制 parallelStream() 真正并行化 CPU heavy 映射？

最佳答案

似乎存在根本性的误解。链接的问答讨论了流显然不能并行工作，因为 OP 没有看到预期的加速。结论是，如果工作负载太小，并行处理没有任何好处，不会自动回退到顺序执行。

其实恰恰相反。如果你请求并行，你就会得到并行，即使它实际上降低了性能。在这种情况下，实现不会切换到可能更高效的顺序执行。

因此，如果您确信每个元素的工作负载足够高以证明使用并行执行是合理的，而不管元素的数量很少，您可以简单地请求并行执行。

可以很容易地证明:

Stream.of(1, 2).parallel()
      .peek(x -> System.out.println("processing "+x+" in "+Thread.currentThread()))
      .forEach(System.out::println);

On Ideone , 它打印

processing 2 in Thread[main,5,main]
2
processing 1 in Thread[ForkJoinPool.commonPool-worker-1,5,main]
1

但消息的顺序和详细信息可能会有所不同。甚至有可能在某些环境中，这两个任务可能碰巧由同一个线程执行，如果它可以在另一个线程开始接收它之前确定第二个任务。但当然，如果任务足够昂贵，就不会发生这种情况。重要的一点是，整体工作负载已被拆分并入队，以便有可能被其他工作线程接收。

对于上面的简单示例，如果在您的环境中发生单线程执行，您可以像这样插入模拟工作负载:

Stream.of(1, 2).parallel()
      .peek(x -> System.out.println("processing "+x+" in "+Thread.currentThread()))
      .map(x -> {
           LockSupport.parkNanos("simulated workload", TimeUnit.SECONDS.toNanos(3));
           return x;
        })
      .forEach(System.out::println);

然后，您可能还会看到，如果“每个元素的处理时间”足够长。

更新:误解可能是由 Brian Goetz 的误导性陈述引起的:“在您的情况下，您的输入集太小而无法分解”。

必须强调的是，这不是 Stream API 的一般属性，而是 Map已被使用。 HashMap有一个后备数组，条目根据它们的哈希码分布在该数组中。将数组拆分为 n 范围可能不会导致包含元素的平衡拆分，尤其是当只有两个时。 HashMap 的实现者的 Spliterator认为在数组中搜索元素以获得完美平衡的拆分过于昂贵，并不是说拆分两个元素不值得。

自 HashMap的默认容量是16而这个例子只有两个元素，我们可以说 map 太大了。简单地解决这个问题也会解决这个例子:

long start = System.nanoTime();

Map<String, Supplier<String>> input = new HashMap<>(2);
input.put("1", () -> {
    System.out.println(Thread.currentThread());
    LockSupport.parkNanos("simulated workload", TimeUnit.SECONDS.toNanos(2));
    return "a";
});
input.put("2", () -> {
    System.out.println(Thread.currentThread());
    LockSupport.parkNanos("simulated workload", TimeUnit.SECONDS.toNanos(2));
    return "b";
});
Map<String, String> results = input.keySet()
        .parallelStream().collect(Collectors.toConcurrentMap(
    key -> key,
    key -> input.get(key).get()));

System.out.println("Time: " + TimeUnit.NANOSECONDS.toMillis(System.nanoTime()- start));

在我的机器上，它打印

Thread[main,5,main]
Thread[ForkJoinPool.commonPool-worker-1,5,main]
Time: 2058

结论是 Stream 实现总是尝试使用并行执行，如果您请求它，无论输入大小如何。但这取决于输入的结构如何将工作负载分配给工作线程。事情可能更糟，例如如果您从文件流式传输行。

如果您认为平衡拆分的好处值得复制步骤的成本，您也可以使用 new ArrayList<>(input.keySet()).parallelStream()而不是 input.keySet().parallelStream() , 作为元素在 ArrayList 中的分布始终允许完美平衡的拆分。

关于java - 有没有办法强制 parallelStream() 并行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44800027/

27

4

0

文章推荐： Java 8 流解析为整数

文章推荐： java - H2 控制台在 H2 数据库中抛出错误 webAllowOthers

.htaccess - 强制 https，强制到子文件夹，强制 www，不要破坏站点
我一直很难编辑我的 .htaccess 文件来一起做这三件事。我已经能够分别获得每个部分，但我只是不明白逻辑流程如何使它们全部工作。这是我能够使用 bluehost support 上的演示进行整合
vba - 强制"is"以保存并另存为无宏工作簿
我制作的宏将模板工作簿保存为两个单独的文件。每个测试保存一个(位置 1、2、3 或 4)，然后在另一个宏中使用每个测试的数据。第二个是保留用于备份的原始数据文件。现在的问题是每次我在每个位置运行测试并
types - 包括模块、强制
我正在写一篇关于如何使用 OCaml 的模块系统而不是 Java 的 OO 系统(一个有趣的视角)的博客文章。我遇到了一些我不理解的关于强制的事情。下面是一个基本模块和两个包含它的模块: module
c - 强制 if 语句只执行一次
我有一段将被执行多次(5,000+)的代码，以及一个仅在第一次为真的 if 语句。我曾想过使用“FIRST”变量并每次都进行比较，但每次都检查它似乎是一种浪费，即使我知道它不需要。 bool FIRS
强制 P4CONFIG 未设置？
首先，我是 Perforce 的新手，我主要通过其文档进行学习。因此，我们即将从 CVS 迁移到 Perforce，我最近学到了一个避免更改每个工作区的 P4CLIENT 的好方法，即在工作区根目录
java - 强制 FileNotFoundException
我正在为一段代码编写测试，其中包含我试图涵盖的 IOException 捕获。 try/catch 看起来像这样: try { oos = new ObjectOutputStream(new
javascript - 强制 $.each() 循环等待动画完成后再继续
我正在尝试在新闻项目滚动之间添加延迟。我知道 $.each() 通过不等待动画完成来完成其工作，但我想知道如何制作它，以便一次向上滚动一个项目并等到最后一个动画完成后再继续在循环中。 $(functi
c# - 强制/要求方法的排序列表参数
假设已经编写了一个方法，需要一个排序列表作为其输入之一。当然这将在代码中进行注释和记录，param 将被命名为“sortedList”，但如果有人忘记，则会出现错误。有没有办法强制输入必须排序？我正
Apache 强制 SSL
我正在尝试将传入请求重定向到 https://www.domain.com/和所有 https://www.domain.com/ {所有页面}并且没有什么麻烦。我试过的方法: 添加此行:Redire
python - 强制 raw_input
我将如何实现以下内容: title_selection = raw_input("Please type in the number of your title and press Enter.\n%
javascript - 在浏览器中自动完成 ="off"强制
我有一个登录表单，我需要强制关闭自动完成功能。我试过了 jquery: $('#login').attr("autocomplete", "off"); HTML: Javascript:docume
Git 强制 merge
我想知道我应该怎么做才能强制从 dev 分支 merge 到我的 master 分支？使用“git merge dev”会导致很多冲突。但是，我不想单独处理它们。相反，我只是想使用我的 dev 分支中
c# - 强制 Nuget 包使用特定版本的子依赖项？
当安装 Hl7.Fhir.DSTU2 和 Hl7.Fhir.R4 这两个 Nuget 包时，我们得到如下信息: DSTU2 包似乎在使用 Hl7.Fhir.Support.Poco 版本 3.4.0
reactjs - 强制 react 功能组件触发重新渲染
我正在尝试让一个功能组件在 testFn 执行时强制重新渲染。我想使用状态来做到这一点(如果有更好的方法请说出来)，这似乎成功地强制重新渲染但只有两次，然后什么都没有。我构建了一个简单的演示来模拟这
g++ - 强制 g++ 为未使用的函数生成代码
默认情况下，g++ 似乎会省略未使用的类内定义方法的代码。示例 from my previous question : struct Foo { void bar() {} void baz(
html - 强制 div 高度以适应透视内容
我正在尝试使用 here 中介绍的技术使我的网站背景以比内容慢的速度滚动。我不希望背景固定，只希望更慢。这是 HTML 的样子: .parallax { perspective: 1px;
dart - 强制 ListView 缩小以包含子项
我能找到的最相似的问题是 'how to create a row of scrollable text boxes or widgets in flutter inside a ListView?'
javascript - 强制(修复)导入完全在一行中
我有以下 eslint 配置: "object-curly-newline": ["error", { "ImportDeclaration": "never",
tinymce - 强制 TinyMCE 去除数据属性
我正在使用 TinyMCE 插件并将 valid_elements 选项设置为: "a[href|target:_blank],strong/b,em/i,br,p,ul,ol,li" 即使没有列出数
强制 : wanted to Multiline description
您好，我想使用以下命令放置多行描述 p4 --field Description="MY CLN Header \\n my CLN complete description in two -thre

首页

博学

6Ren·AI

商城

java - 有没有办法强制 parallelStream() 并行？