java - 如何实现线程安全的收集器？-6ren

java - 如何实现线程安全的收集器？

转载作者：塔克拉玛干更新时间：2023-11-03 03:19:35

我想要类似于 Collectors.maxBy() 的东西，一个获取集合中顶部元素的收集器(maxBy 只获取一个)。

我有一个 Possibility 的流可以用 Integer score(Possibility) 评分的对象方法。

首先我尝试了:

List<Possibity> possibilities = getPossibilityStream()
    .parallel()
    .collect(Collectors.toList());

if(!possibilities.isEmpty()) {
    int bestScore = possibilities.stream()
        .mapToInt(p -> score(p))
        .max()
        .getAsInt();
    possibilities = possibilities.stream()
        .filter(p -> score(p)==bestScore)
        .collect(Collectors.toList());
}

但这样做时，我扫描了该集合 3 次。一次构建它，第二次获得最高分，第三次过滤它，这不是最优的。此外，可能性的数量可能很大 (>10¹²)。

最好的方法应该是在第一次收集时直接获取最高的可能性，但似乎没有内置的收集器来做这样的事情。

所以我实现了自己的 Collector :

public class BestCollector<E> implements Collector<E, List<E>, List<E>> {

    private final Comparator<E> comparator;

    private final Class<? extends List> listImpl ;

    public BestCollector(Comparator<E> comparator, Class<? extends List> listImpl) {
        this.comparator = comparator;
        this.listImpl = listImpl;
    }

    public BestCollector(Comparator<E> comparator) {
        this.comparator= comparator;
        listImpl = ArrayList.class;
    }

    @Override
    public Supplier<List<E>> supplier() {
        return () -> {
            try {
                return listImpl.newInstance();
            } catch (InstantiationException | IllegalAccessException ex) {
                throw new RuntimeException(ex);
            }
        };
    }

    @Override
    public BiConsumer<List<E>, E> accumulator() {
        return (list, e) -> {
            if (list.isEmpty()) {
                list.add(e);
            } else {
                final int comparison = comparator.compare(list.get(0), e);
                if (comparison == 0) {
                    list.add(e);
                } else if (comparison < 0) {
                    list.clear();
                    list.add(e);
                }
            }
        };
    }

    @Override
    public BinaryOperator<List<E>> combiner() {
        return (l1, l2) -> {
            final int comparison = comparator.compare(l1.get(0), l2.get(0));
            if (comparison == 0) {
                l1.addAll(l2);
                return l1;
            } else if (comparison < 0) {
                return l2;
            } else {
                return l1;
            }
        };
    }

    @Override
    public Function<List<E>, List<E>> finisher() {
        return Function.identity();
    }

    @Override
    public Set<Characteristics> characteristics() {
        return EnumSet.of(Characteristics.IDENTITY_FINISH, Characteristics.CONCURRENT, Characteristics.UNORDERED);
    }
}

然后:

List<Possibity> possibilities = getPossibilityStream()
    .parallel()
    .collect(new BestCollector<Possibility>((p1, p2) -> score(p1).compareTo(score(p2)));

这在顺序模式下完成工作(没有 .parallel() )但在并行模式下偶尔会在两个地方出现一些异常:

A java.lang.IndexOutOfBoundsException Index: 0, Size: 0在行中:
```
final int comparison = comparator.compare(list.get(0), e);
```

属于 accumulator()方法

我知道它发生在 list.clear() 时在 list.isEmpty() 之间调用和 list.get(0) .

A java.lang.NullPointerException在 score(Possibility) 方法中，因为可能性是 null .再次涉及同一行:
```
final int comparison = comparator.compare(list.get(0), e);
```

我不明白list.get(0)可以返回 null ...

在并行模式下，有时 list.get(0)提出 IndexOutOfBoundsException有时返回 null .

我知道我的代码不是线程安全的，所以我尝试了几种解决方案:

添加synchronized在 BestCollector 的所有方法中:public synchronized …
使用线程安全的集合而不是 ArrayList : java.util.concurrent.CopyOnWriteArrayList
添加synchronized并使用 CopyOnWriteArrayList同时

删除 Characteristics.CONCURRENT来自 Set<Characteristics>的 characteristics()方法

@Override
public Set<Characteristics> characteristics() {
    return EnumSet.of(Characteristics.IDENTITY_FINISH, Characteristics.UNORDERED);
}

但我不知道 Characteristics.CONCURRENT在这里表明我的代码是线程安全的或者我的代码将用于并发处理。

但这些解决方案都没有真正解决问题。

事实上，当我从特征中删除 CONCURRENT 时，有时会出现 java.lang.IndexOutOfBoundsException: Index: 0, Size: 0但在行中:

final int comparison = comparator.compare(l1.get(0), l2.get(0));

属于 combiner()方法。

但是，accumulator() 引发的异常方法似乎不再出现。

@Holger 的回答是正确的。

完整的解决方案是同时更改 combiner()和 characteristics()方法:

@Override
public BinaryOperator<List<E>> combiner() {
    return (l1, l2) -> {
        if (l1.isEmpty()) {
            return l2;
        } else if (l2.isEmpty()) {
            return l1;
        } else {
            final int comparison = comparator.compare(l1.get(0), l2.get(0));
            if (comparison == 0) {
                l1.addAll(l2);
                return l1;
            } else if (comparison < 0) {
                return l2;
            } else {
                return l1;
            }
        }
    };
}

@Override
public Set<Characteristics> characteristics() {
    return EnumSet.of(Characteristics.IDENTITY_FINISH, Characteristics.UNORDERED);
}

最佳答案

您的代码只有一个重大错误:如果您的收集器不是线程安全的，它不应该报告 Characteristics.CONCURRENT，因为这正是声称它是线程安全的。

您必须了解的重要一点是，对于非CONCURRENT 收集器，框架将执行必要的步骤以线程安全但仍有效的方式使用它:

对于每个工作线程，将通过 supplier()
每个 worker 将使用 accumulator() 函数及其自己的本地容器
combiner() 将在两个工作线程完成工作后使用
finisher() 将在所有工作线程完成其工作且所有容器已组合时使用

所以你所要做的就是确保你的供应商在每次调用时真正返回一个新实例，并且所有函数都是无干扰和无副作用的(除了它们作为参数接收的容器之外的任何其他东西)并且，当然，当您的收集器不是并发收集器时，不要报告 Characteristics.CONCURRENT。

这里不需要 synchronized 关键字或并发集合。

顺便说一句，(p1, p2) -> score(p1).compareTo(score(p2)) 形式的Comparator 可以使用 Comparator.comparing(p -> score(p)) 或者如果分值是 int:Comparator.comparingInt(p -> score(p)).

最后，您的组合器函数不会检查其中一个列表是否为空。这完美地解释了 combiner 中的 IndexOutOfBoundsException 而 accumulator 中的 IndexOutOfBoundsException 是收集器报告的结果 Characteristics.CONCURRENT…

了解向 accumulator() 或 combiner() 方法添加 synchronized 关键字并不能保护构造的函数也很重要通过 lambda 表达式。它将保护构造函数实例的方法，而不是函数的代码本身。与内部类相比，无法将 synchronized 关键字添加到实际函数的实现方法中。

关于java - 如何实现线程安全的收集器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29916881/

文章推荐： java - 如何使用 apache poi 设置 word 文档的页边距？

文章推荐： algorithm - 流程图是否有标准的机器可读格式？

文章推荐：基于到达特定点所需的最小线段数量评估像素的算法，同时仅穿过有效区域？

文章推荐： java - 查找表达式在字符串中连续和非连续出现的次数

js正则表达式验证大全(收集)
引用网址 http://hi.baidu.com/quiteuniverse/blog/item/9f3f043d46ad1e07bba16716.html 以下函数调用方式：&nbs
php - 收集 cookies
我什至不确定如何描述我正在尝试做的事情，因为我对 cookie 了解不多，但就这样吧。是否可以使用PHP从浏览器缓存中收集一个cookie(或cookie文件)，将其保存到数据库中，然后清除缓存并重
android - 使用协程流时房间卡住->收集
我正在使用 Room(v. 2.2.1)和协程支持(v. 1.3.2)并进行以下设置 @Entity(tableName = "simple_table") data class SimpleEnti
java - 基于时间运算符的累加/收集
我正在尝试编写一个基于时间运算符收集/累积值的规则。 rule "Zone6 Overlap" when $i1 : Instance ($e1 : event == " Vel : 20.9
收集 BST 的所有叶子并列出它们
我有一个简单的 BST，定义了节点结构: struct node { int key_value; struct node *left; struct node *right; }; ty
Java8 收集 map
我有这个对象: public class MenuPriceByDay implements Serializable { private BigDecimal avgPrice; p
android - 收集、存储和检索传感器数据
我正在开发一个应用程序，需要访问给定传感器的“最后 5 秒有值(value)的数据”。我的计划是以某种方式存储这些数据，然后当我请求数据时，它将返回最近 5 秒内获得的所有数据。鉴于以下情况，我不确定
C# 数组映射/收集
在 Ruby 中，您可以对数组使用 map/collect 方法来修改它: a = [ "a", "b", "c", "d" ] a.collect! {|x| x + "!" } a
java - 收集、存储和检索大量数字数据
我即将开始实时收集大量数字数据(对于那些感兴趣的人，各种股票和 future 的出价/要价/最后或“磁带”)。稍后将检索数据以进行分析和模拟。这一点都不难，但我想高效地做到这一点，这会带来很多问题。我
database - 收集、维护和确保庞大数据集准确性的最佳实践是什么？
我提出这个问题是为了寻求有关如何设计系统的实用建议。像 amazon.com 和 pandora 这样的网站拥有并维护着庞大的数据集来运行他们的核心业务。例如，亚马逊(以及所有其他主要电子商务网站)
通过已知索引、收集、分散重新调整的数组缓存友好复制
假设我们有一个数据数组和另一个带索引的数组。 data = [1, 2, 3, 4, 5, 7] index = [5, 1, 4, 0, 2, 3] 我们想从 index 的 data 元素创建一个
c# - GC.收集()
好的，我已经阅读了几个关于它的主题，但现在就开始吧。假设我有一个应用程序，基本上我会时不时地点击一个按钮，几分钟内会发生很多事情，然后它可能会再闲置一个小时，或者可能只是 1 分钟。难道不是在整个结束
r - 收集 R 中相同组内的重叠坐标列
我有一个数据框，例如 Seq Chrm start end length score 0 A C1 1 50 49 12 1 B
java - 收集 Object[] 数组中的所有方法参数
我正在考虑在 Object[] 数组中收集泛型方法的所有方法参数以进行记录。我知道使用方面可以更好地实现这一点，但是我不允许使用它，并且如果可能的话我正在寻找一种基于纯反射的方法为了澄清，假设一个
收集 Java 6 套接字垃圾
快速提问: 如果 Socket 对象(及其本地缓存的 InputStream 和 OutputStream 对象)超出范围并被垃圾收集，连接是否在 JVM 中保持打开状态？ (即，不会在监听服务器上抛
facebook - 收集 Facebook 直播公开数据
是否有用于收集 facebook 公共(public)数据作为实时提要的 API。我阅读了关于用于收集数据的公共(public)提要 API，但我现在不能申请，而且它不是免费的，还有 Open str
optimization - 收集 Lucene/优化中搜索的所有命中
摘要 :我使用自定义收集器收集给定搜索的所有命中的文档 ID(它使用 ID 填充 BitSet)。根据我的需要，搜索和获取文档 ID 的速度非常快，但是当涉及到从磁盘实际获取文档时，事情变得非常缓慢。
gradle - 收集 Gradle 项目的依赖约束
我正在寻找一种方法来从自定义 Gradle 插件收集给定项目的所有依赖约束(通过常规 platform 和/或 enforcedPlatform 和/或“手动”强制执行)。在 Maven 世界中，您
powershell - 收集 samaccount powershell
我有一个 CSV 格式的用户列表，但我需要按广告中的名称从每个用户收集 SamAccount 属性。 CSV 模型脚本 Get-ADObject -Filter 'ObjectClass -eq "
angularjs - ionic 收集 - 带日期分隔符的重复
我得到了一个非常大的列表，其中包含大约 200 个带有文本和图像的项目。 ng-repeat 是一种缓慢渲染的方式。它尝试过这个 solution 。效果很好。但不适合重复收集。我的网络服务返回此:

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 如何实现线程安全的收集器？