gpt4 book ai didi

database - 从 1 亿行字符串中搜索一个字符串

转载 作者:搜寻专家 更新时间:2023-10-30 21:59:40 27 4
gpt4 key购买 nike

我有这个包含一些 md5 散列的文本文件,其中有 1 亿行。我有另一个较小的文件,其中包含几千个 md5 哈希值。我想从这个新的小文件到旧的大文件找到这些 md5 哈希值的对应索引。

最有效的方法是什么?是否可以在 15 分钟左右完成?

我尝试了很多方法,但它们都不起作用。首先,我尝试将更大的数据导入数据库文件并在 md5 哈希列上创建索引。创建此哈希需要永远。我什至不确定这是否会大大提高查询速度。有什么建议吗?

最佳答案

不要在数据库中这样做——使用一个简单的程序。

  1. 将小文件中的 md5 哈希读入内存中的 HashMap ,以便快速查找。
  2. 然后逐行读取大文件中的 md5,并检查该行是否在 HashMap 中。

HashMap 中的平均查找时间应该接近于O(1),所以这个过程的时间基本上就是你有多快可以通读大文件

使用今天的硬件,使用这种方法很容易获得 15 分钟。

关于database - 从 1 亿行字符串中搜索一个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20672404/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com