gpt4 book ai didi

java - 如何从大型数据提要中排除重复记录?

转载 作者:可可西里 更新时间:2023-11-01 14:21:36 25 4
gpt4 key购买 nike

我已经开始处理一个以 JSON 格式到达的大型数据集。不幸的是,提供数据馈送的服务提供了大量的重复记录。从好的方面来说,每条记录都有一个唯一的 ID 号,存储为 64 位正整数(Java long)。

数据每周到达一次,每次交付约 1000 万条记录。我需要从当前交付以及之前批处理中的记录中排除重复项。

解决重复数据删除问题的强力方法是将 Id 编号插入 Java Set。由于 Set 接口(interface)需要唯一性,因此插入期间的失败将指示重复。

问题是:在我导入记录时,是否有更好的方法来查找重复的 long

我正在使用 Hadoop 来挖掘数据,因此,如果有一种使用 Hadoop 来删除重复记录的好方法,那将是一种奖励。

最佳答案

您能否创建一个 MapReduce 任务,其中 map 输出具有唯一 ID 号的键?这样,在您的 reduce 任务中,您将获得一个包含具有该 ID 号的所有值的迭代器。只输出第一个值,你减少的输出将没有重复。

关于java - 如何从大型数据提要中排除重复记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7393149/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com