c - C 中大磁盘文件的二进制搜索

c - C 中大磁盘文件的二进制搜索 - 问题

转载作者：IT王子更新时间：2023-10-29 00:46:53

26

4

这个问题在 StackOverflow 上经常出现，但我已经阅读了所有以前的相关答案，并且对这个问题有轻微的扭曲。

我有一个 23Gb 的文件，其中包含 4.75 亿行大小相等的行，每行由一个 40 个字符的哈希码和一个标识符(一个整数)组成。

我有一个传入的哈希码流 - 总共有数十亿个 - 对于每个传入的哈希码，我需要找到它并打印出相应的标识符。这项工作虽然很大，但只需要完成一次。

文件太大，我无法读入内存，所以我一直在尝试通过以下方式使用 emmap:

codes = (char *) mmap(0,statbuf.st_size,PROT_READ,MAP_SHARED,codefile,0);

然后我只是根据代码中的地址使用地址算法进行二进制搜索。

这似乎开始漂亮地工作并在几秒钟内生成几百万个标识符，使用 100% 的 cpu，但在一些看似随机的时间之后它会减慢到爬行。当我使用 ps 查看进程时，它已从使用 100% cpu 的状态“R”变为使用 1% cpu 的状态“D”(磁盘绑定(bind))。

这是不可重复的 - 我可以对相同的数据再次启动该过程，并且它可能会运行 5 秒或 10 秒，然后才会出现“缓慢爬行”。昨晚有一次，在这件事发生之前我有将近一分钟的时间。

一切都是只读的，我没有尝试对文件进行任何写入，并且我已经停止了机器上的所有其他进程(我控制的)。它是现代 Red Hat Enterprise Linux 64 位机器。

有谁知道为什么进程会受磁盘限制以及如何停止它？

更新:

感谢大家的回答和您的想法；我以前没有尝试过所有各种改进，因为我想知道我是否以某种方式错误地使用了 mmap。但答案的要点似乎是，除非我能把所有东西都塞进内存里，否则我将不可避免地遇到问题。因此，我将哈希码的大小压缩为不会创建任何重复项的前导前缀的大小——前 15 个字符就足够了。然后我将生成的文件拉入内存，并分批运行传入的哈希码，每批约 20 亿个。

最佳答案

首先要做的是拆分文件。

用散列码制作一个文件，用整数 ID 制作另一个文件。由于行相同，因此在找到结果后它会很好地排列。您也可以尝试一种将每个第 n 个哈希值放入另一个文件然后存储索引的方法。

例如，每第 1000 个散列键与索引一起放入一个新文件中，然后将其加载到内存中。然后二进制扫描它。这将告诉您需要在文件中进一步扫描的 1000 个条目的范围。是的，那会很好!但可能远不止于此。大概每 20 条记录就会将文件大小除以 20 + - 如果我觉得不错的话。

换句话说，扫描后您只需要触摸磁盘上几千字节的文件。

另一种选择是将文件拆分并放在多台机器的内存中。然后只需二进制扫描每个文件。这将在零磁盘访问的情况下产生绝对最快的搜索...

关于c - C 中大磁盘文件的二进制搜索 - 问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14866882/

26

4

0

文章推荐： linux - ad-hoc wlan 的预定义小区 ID 分配

文章推荐： Go模块和依赖修改 vendor

文章推荐： go - 为什么 curl 为我的用户提供了错误的 json？

文章推荐： c++ - Linux 中的 FreeGLUT 链接问题

java - 服务器启动后将Ehcache的缓存数据写入本地文件(磁盘)，重新启动时应从文件(磁盘)中获取数据
我在服务器启动时创建一个缓存(服务器启动每次都需要10分钟)。目前我正在使用内存缓存(Ehcache)。现在我想建立一个机制，以便一旦数据被缓存我应该能够在几秒钟内启动服务器。比如将缓存的持久副本写入
JSON 磁盘/内存大小比率
我编写 json 结构的方式使得文件(在进行了一个月的测量后)存储在磁盘上时仍然只有 100 MB 左右。但是现在文件大约是 20mb，但我看到我的脚本需要的内存大约是 200/300 mb。显然，脚
solaris挂载windows fat32 磁盘
Solaris9 x86下如何挂载和永久挂载windows fat32分区临时挂载Shell 命令; mout –F pcfs /dev/dsk/c1d0p0:c /mnt/c mount
azure - 磁盘 ID 中的资源组名称不区分大小写
磁盘ID中的资源组名称大小写不敏感。重现此问题的步骤 - 在 Azure 中创建独立磁盘，检查 ID。对于例如 -“/subscriptions/subscriptionID/resourceGrou
azure - 磁盘 UUID 在哪个命名空间中是唯一的？
我已将附加数据磁盘的备份还原到新虚拟机。当我发出命令 sudo blkid 时，我发现它与附加到原始虚拟机的数据磁盘具有相同的 UUID，因此我无需更改 fstab 即可在启动时挂载它。然而，它似乎是
assembly - 磁盘 IO 操作在内核级程序集中通常如何看待？
在用户态中，执行磁盘 IO 就像链接 C 库一样简单，或者，如果您喜欢冒险，可以直接执行系统调用。我想知道内核本身是如何执行 IO 的。换句话说，假设我在裸机上以特权模式运行应用程序。我将如何访问通
azure - 磁盘 UUID 在哪个命名空间中是唯一的？
我已将附加数据磁盘的备份还原到新虚拟机。当我发出命令 sudo blkid 时，我发现它与附加到原始虚拟机的数据磁盘具有相同的 UUID，因此我无需更改 fstab 即可在启动时挂载它。然而，它似乎是
laravel - 磁盘 [视频] 没有配置的驱动程序
我正在尝试使用 laravel 和 ffmpeg 创建缩略图。但是我收到了这个错误。磁盘 [视频] 没有配置驱动程序。我的代码 public function index() { FFMp
c++ - 如何像winhex一样直接读/写usb(磁盘)？
我的目标是读/写 usb。首先必须打开并读取 usb 低级别，如“程序” 我使用 visual c++ 和 winAPI 下面是我的测试代码 char path[64]; sprintf(path,
c - 磁盘 I/O 的内核缓冲区缓存何时为空？
内核缓冲区缓存何时为空？这似乎不是 LINE Buffering。如果我写 () 一个没有换行符的字符串，它会立即输出到文件。另外，socket文件的输入输出缓冲区是否也像Disk I/O一样使用内
linux - 使用命令加载 RAM 磁盘
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
linux - 磁盘 I/O 基准测试
我有一个大型调用中心，有 250 个并发调用。队列日志的队列应用程序平面文件。该系统使用 Asterisk 和 Queuemetrics。两个服务都在同一台服务器上运行。规范为 16 核和 64 GB
Centos 磁盘 LVM 扩展
我在使用安装了 Centos7 的 VMWare VM 时遇到问题。 lsblk 命令给出如下内容 df -h 给出这个我正在尝试将 root lvm 扩展到分区，但无论我如何尝试都无法做到这一点。
java - 磁盘 I/O 算法的运行时间
在基于内存的计算模型中，通过考虑数据结构，可以抽象地完成唯一需要进行的运行时计算。但是，关于高性能磁盘 I/O 算法的文档并不多。因此，我提出了以下一组问题: 1) 我们如何估计磁盘 I/O 操作的
windows - 如何以编程方式创建 RAM 磁盘？
我不是在寻找调用命令行实用程序的代码，它可以解决问题。我实际上很想知道用于创建 RAM 磁盘的 API。编辑动机:我有一个第三方库，它需要一个目录名，以便以某种方式处理该目录中的文件。我将这些文件
mysql 磁盘 I/O 100%
MySQL 数据库显示磁盘 I/O 利用率持续保持在 100% 左右。数据库服务器有 24 GB 内存。我们尝试优化查询，但效果不佳。请检查如下所示的当前配置参数: 参数当前值 key_buff
database - 组合缓存方法 - 基于内存缓存/磁盘
这是交易。我们本可以采用完全静态 html 的方式来解决性能问题，但由于该站点将是部分动态的，因此这对我们来说行不通。我们想到的是使用 memcache + eAccelerator 来加速 PHP
c# - 内存映射文件与 RAM 磁盘
对于游戏 Minecraft，运行服务器应用程序时的一般方法是在 RAMDisk 中运行它，因为它使用数百个小文件来生成世界，I/O 速度是主要瓶颈。在最近的尝试中，我尝试使用 Dokan/ImDi
c - 磁盘 I/O 期间幕后发生了什么？
当我查找文件中的某个位置并写入少量数据(20 字节)时，幕后发生了什么？我的理解据我所知，可以从磁盘写入或读取的最小数据单位是一个扇区(传统上是 512 字节，但该标准现在正在改变)。这意味着要写
go - 如何使用golang获取xen服务器内存、磁盘、网络和CPU信息？
如何使用golang获取xen服务器的内存、磁盘、网络和cpu信息？是否有任何可用的软件包？最佳答案与其他服务器有什么不同？如果没有 - 有一堆 Go 包可以做到这一点，我正在使用这个 - ht

首页

博学

6Ren·AI

商城

c - C 中大磁盘文件的二进制搜索 - 问题