Java 8 :How to remove duplicates from the List based on multiple properties preserving the order-6ren

Java 8 :How to remove duplicates from the List based on multiple properties preserving the order

转载作者：行者123 更新时间：2023-12-03 16:46:26

25

4

我正在尝试从基于多个属性的学生对象列表中删除重复项，同时保留顺序，如下所示，我有学生对象列表，其中我们有多个同名学生，但出勤率不同……我需要删除重复项具有相同名称且学生出席人数为 100 的学生，同时保留顺序。

Student{studentId=1, studentName='Sam', studentAttendence=100, studentAddress='New York'}
Student{studentId=2, studentName='Sam', studentAttendence=50, studentAddress='New York'}
Student{studentId=3, studentName='Sam', studentAttendence=60, studentAddress='New York'}
Student{studentId=4, studentName='Nathan', studentAttendence=40, studentAddress='LA'}
Student{studentId=5, studentName='Ronan', studentAttendence=100, studentAddress='Atlanta'}
Student{studentId=6, studentName='Nathan', studentAttendence=100, studentAddress='LA'}

删除重复项后的期望输出:

Student{studentId=2, studentName='Sam', studentAttendence=50, studentAddress='New York'}
Student{studentId=3, studentName='Sam', studentAttendence=60, studentAddress='New York'}
Student{studentId=4, studentName='Nathan', studentAttendence=40, studentAddress='LA'}
Student{studentId=5, studentName='Ronan', studentAttendence=100, studentAddress='Atlanta'}

我现在所拥有的只是根据名称删除重复项而不考虑百分比(100)......并且也不保留顺序......非常感谢任何帮助。(学生供应商是学生名单的简单供应商功能)

studentsSupplier.get().stream()
                .sorted(Comparator.comparing(Student::getStudentName))
                .collect(Collectors.collectingAndThen(
                        Collectors.toCollection(
                                () -> new TreeSet<>(Comparator.comparing(Student::getStudentName))), ArrayList::new));

注意:只有学生姓名匹配且百分比为100的重复记录必须删除，(记录Ronon有百分比100但没有重复的学生姓名相同，因此不能删除)

最佳答案

如果你想保留顺序，显然不要打电话.sorted ，这扰乱了秩序。
更普遍地在这里使用流是复杂的。如果您想对流中的每个元素执行的操作是独立的(除了正在考虑的一个元素之外，不需要查看任何内容，即不需要查看邻居)，则类似流。这不是这里的情况。
如果删除任何出勤率为 100 的学生是正确的(顺便说一句，这是一个错字，正确的词是出勤)，那么所有这些关于“重复”的东西都是一个红鲱鱼，你只需要:

list.removeIf(s -> s.getStudentAttendence() >= 100);

但如果想法是:仅当出席人数超过 100 人时才删除记录，和列表中至少有一个其他记录具有相同的名称，它变得更加复杂。
主要问题是 您的数据存储机制不适合此工作 .如果你只是停止使用 lambda，这并不难。将您的列表视为由 1 亿个条目组成会有所帮助。整个流操作将 1 亿个条目的名称保留在“内存中”显然是不可行的。你没有那么多内存。数据结构( List)也不提供任何快速查找；没有办法编写代码来回答这个问题“有多少条学生姓名记录 Sam”。是否在此列表中？)而无需遍历 1 亿个条目，这是一项非常重要的工作。
因此，考虑到以下限制:

输入数据在 List形式。

输入数据尚未排序。

输出必须与输入保持相同的顺序。

那么工作是 不可能 在它的脸上!
因此，相反，您需要接受它不是一个简单的单行程序，并且您需要首先制作存储您需要的相同数据存储的替代版本。
然后还有其他问题。特别是，如果你有 3 Sam 会发生什么？学生和每条记录都有 studentAttendence = 100 ?他们都应该被删除吗？不应该删除吗？删除 2 个任意的？
通常，如果您在编写算法时遇到问题，实际问题是您还没有完全指定您想要的行为，因此您的挣扎主要是由于您没有完全理解问题，而不是编码问题。
假设规则很简单:删除所有出勤率 = 100 的学生，但前提是存在出勤率低于 100 的同名记录。如果所有记录的出勤率均为 100，则保留所有记录，然后:

List<Students> students = ...;
Set<String> dupeNames = students.stream()
  .filter(s -> s.getAttendence() < 100)
  .map(Student::getStudentName)
  .collect(Collectors.toSet());

students.removeIf(s -> s.getAttendence() < 100 && dupeNames.contains(s.getStudentName());

会完成工作，并且会很快完成。 (O(n)，在算法上是特定的:制作基于集合的副本需要每个学生记录的固定时间步长，因此 O(n) 和 removeIf 调用同样需要检查每个学生，但只需要执行固定时间每步工作，因为 .contains() 在集合上是恒定时间，假设良好的散列分布，字符串通常具有)，因此，恒定数量的 O(n) 操作意味着整个操作是 O(n):所需的时间随输入列表中有多少学生线性增长(与每次处理列表中的单个条目时都扫描整个列表的解决方案相比，该条目随输入大小的平方增长)。

关于Java 8 :How to remove duplicates from the List based on multiple properties preserving the order，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67299144/

25

4

0

文章推荐： python - 在提示时将密码传递给 Python 脚本

文章推荐： python-2.7 - 用于实时分析的正确 Python 数据结构？

文章推荐： python - 独立移动数组中的行

sql - 在 SQL 中的 order by 中嵌套 order by/order by
我正在寻找通过 sql 查询对我的 sql 结果进行排序，大概在 order by 子句中使用某种嵌套的 order by/order by 我有以下数据: TERM USER I
sql - order by 后跟从属 order by
我有一个表格，其中包含如下所示的部分数据。我已经在 edition_id 上完成了订购。现在还需要订购 laungauge_id，这取决于 edition_id 的值。 Edition_id 是指报纸
SQL Order By 中的 Order By
所以我有两个表，Questions 和 Answers，由多对多关系表 QuestionsAnswers 连接。 Questions 有一个排序列，允许我控制它们如何显示给用户，而 Questions
recursion - FP : What does "order" mean in "high order" functions? 递归函数是否为 "high order"函数？
当我们说“高阶”函数时，我怀疑“阶”的真正含义是什么？例如，我有一个嵌入式函数调用: f.g.h 那么它叫“三阶”函数吗？ “高阶”函数是静态函数累加的概念吗？然后当我有一个递归函数 f 时，在运行时
sql - 对于多个 sql order by 子句，即使之前的 order by 已经证明行不相等，所有的 order bys 是否都运行？
在具有多个 order by 子句的 SQL 查询中，它们是否真的在执行期间全部运行？例子: select * from my_table order by field5, field3, fiel
SPARQL group by 和 order by : not ordered
我跟进 query其中 schema.org 数据库用于查找类的子级数量 - 作为比我的应用程序更简单的数据库。我想按字母顺序连接 child 的名字。查询: prefix schema: pre
wolfram-mathematica - Ordering@Ordering 和排名排列
正如 nazdrovje 所指出的(参见 here ) Ordering@Ordering 可用于获取列表中每个元素的排名。即使列表包含重复元素，结果也是 n 排列(作为整数 1 到 n 的有序列表，
MySQL:如何在使用父查询 "order by"的同时使用子查询列 "order by"？
我有两张 table 。它们都有日期和 item_id 列。我正在通过 item_id 加入他们。结果应按两个日期列一起排序下面的代码有效，生成正确的结果集... 但是它们仅按第一个表的日期排
mysql - SQL ORDER BY by 内部 ORDER BY
尝试掌握 SQL 我想按日期订购，然后在其中按标题订购。示例: SELECT * FROM tblboek ORDER BY jr_van_uitgave DESC 如何在按年龄的订单中按头衔排序？
mysql order by field order 不符合我的期望
我想使用 FIELD 参数对我的 SQL 输出进行排序，但是当我这样做时，它首先吐出我不想要的结果，然后它首先吐出我想要的结果。在结果之上，它首先吐出。如果这有意义的话 ;) 如何先吐出已定义的值，然
php - MySQL order-by 原始 "where order"
我有一个无法破解的排序问题。我这样从我的表中选择: SELECT * FROM 'sidemodules' WHERE name = 'module1' OR name = 'module2' OR
python - 冲突 'order' 模型在应用程序 'order'
我对 Django oscar 的覆盖模型有疑问。我想为模型添加一个新字段，但是当我这样做时，我遇到了 RuntimeError: Conflicting 'order' models in appl
Multiple "order by" in LINQ(LINQ中的多个“order by”)
我有两个表，电影和类别，我想先按CategoryID获得一个排序列表，然后按名称排序。。电影表格有三个列ID、NAME和CategoryID。CATEGORY表有两列ID和NAME。。我尝试了下面这样
Does ORDER BY apply before or after DISTINCT?(ORDER BY适用于DISTINCT之前还是之后？)
In a MySQL query, when using the DISTINCT option, does ORDER BY apply after the duplicates are re
sql - 如何构建一个 sql 查询以返回 avg(price)、min(price)、max(price) 与 avg(order)、min(order)、max(order)
我想创建一个 sql 查询，为 2 个不同的查询一起返回结果。例如，我想要以下形式的结果:产品名称, avg(price), min(price), max(price), avg(order), m
sql - 使用 order by 时的动态 order by - 加速
我正在使用行号从存储过程中获取分页结果。我发现使用动态 case 语句列名称进行排序会减慢速度 - 但如果我对所有内容进行硬编码就可以了。有没有办法通过不使整个 sql 查询一个字符串并使用 SP
z-order-curve - 如何在范围搜索中使用Morton Order(z阶曲线)？
如何在范围搜索中使用Morton Order？在wiki中，在“使用一维数据结构进行范围搜索”段落中，它说 "the range being queried (x = 2, ..., 3, y =
javascript - Order By (alias) then Order by second sequelize
我正在使用 sequelize.js，我在使用 order 语句时遇到问题，我想先通过 if id 排序(如果我的 id 在该别名表中)，然后再排序.... order = [['alias', 'i
php - MySQL 查询末尾的 "ORDER BY order"导致问题
我有一个 php 脚本，它从数据库中提取内容并以某种方式打印它们。数据库有一个名为“order”的列标题，它的 INT 大小为 11。当我从数据库中获取数据时，我试图按数据库中的值“order”对内容
mysql - 更新 order by 子句排序不同，然后选择 order by
我有一个带有 ORDER BY 子句的 UPDATE 查询。我已将相同的查询复制到具有相同 ORDER BY 子句的 SELECT 中，但得到了不同的结果。更新查询: UPDATE t_locks

首页

博学

6Ren·AI

商城

Java 8 :How to remove duplicates from the List based on multiple properties preserving the order