gpt4 book ai didi

algorithm - 从大量单词列表中清理双倍

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:34:37 25 4
gpt4 key购买 nike

我有一个 56GB 的单词列表,我想删除 double 。我试图在 Java 中解决这个问题,但在 250 万个字后我的笔记本电脑空间不足。所以我正在寻找一个(在线)程序或算法来删除所有重复项。

提前致谢,巨魔爵士

编辑:我在 java 中所做的是将它放在一个 TreeSet 中,这样它们就会被排序并删除重复的

最佳答案

我认为这里的问题是数据量巨大。我会在第一步尝试将数据分成几个文件:例如为每个字符创建一个文件,例如将第一个字符为“a”的单词放入 a.txt,将第一个字符等于“b”的单词放入 b.txt。 ...

  • a.txt
  • b.txt
  • c.txt-

然后我会尝试使用默认排序算法并检查它们是否适用于文件大小。分拣清洁 double 后应该很容易。

如果文件仍然很大,您也可以使用超过 1 个字符进行拆分例如:

  • aa.txt
  • ab.txt
  • ac.txt
  • ...

关于algorithm - 从大量单词列表中清理双倍,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6369695/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com