gpt4 book ai didi

c - 使用 mmap() 搜索大文件 (~1TB)

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:47:20 27 4
gpt4 key购买 nike

我正在开展一个项目,该项目试图在文件系统(例如 ext2)中搜索特定字节(例如 0xAB)。我能够使用 malloc()realloc()memchr() 找到我需要的东西,但它看起来很慢,所以我研究使用 mmap()。我想做的是找到一个特定的字节,然后将它们复制到一个结构中,所以我有两个问题:(1) 使用 mmap() 是最好的策略,以及 (2) 为什么不是以下代码是否有效(我收到 EINVAL 错误)?

更新:以下程序编译并运行,但我仍然有几个问题:
1) 它不会在大文件上显示正确的文件大小(1GB 闪存驱动器显示正确大小,但 32GB 不显示)*。
2) 它没有正确搜索映射**。

*是THIS使用 stat64() 获得正确大小的可能解决方案?如果是这样,它是我在 Makefile 中添加的内容吗?我没有太多地使用 makefile,所以我不知道如何添加类似的东西。
**这是正确的搜索方式吗?

#define _LARGEFILE64_SOURCE

#include <stdio.h>
#include <fcntl.h>
#include <stdlib.h>
#include <string.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <unistd.h>
#include <errno.h>
#define handle_error(msg) \
do { perror(msg); exit(EXIT_FAILURE); } while (0)

int main(int argc, char **argv) {

int fd = open("/dev/sdb1", O_RDONLY);

if(fd < 0) {
printf("Error %s\n", strerror(errno));
return -1;
}

const char * map;

off64_t size;
size = lseek64(fd, 0, SEEK_END);
printf("file size: %llu\n", size);
lseek64(fd, 0, SEEK_SET);

map = mmap(0, size, PROT_READ, MAP_SHARED, fd, 0);
if (map == MAP_FAILED) { handle_error("mmap error"); }

printf("Searching for magic numbers...\n");
for (i=0; i < size; i++) {
if(map[i] == 0X53 && map[i + 1] == 0XEF) {
if ((map[i-32] == 0X00 && map[i-31] == 0X00) ||
(map[i-32] == 0X01 && map[i-31] == 0X00) ||
(map[i-32] == 0X02 && map[i-31] == 0X00)) {
if(j <= 5) {
printf("superblock %d found\n", j);
++j;
} else break;

int q;
for(q=0; q<j; q++) {
printf("SUPERBLOCK[%d]: %d\n", q+1, sb_pos[q]);
}

fclose(fd);
munmap(map, size);
return 0;
}

感谢您的帮助。

最佳答案

mmap 是处理大文件搜索的一种非常有效的方法,尤其是在您可以使用内部结构的情况下(例如,在大文件上使用 mmap已排序的固定大小的记录将允许您进行二进制搜索,并且只会触及与读取的记录对应的页面)。

在您的情况下,您需要针对 64 位进行编译并启用大文件支持(并使用 open(2))。

如果您的 /dev/sdb1 是设备而不是文件,我认为 stat(2) 不会显示实际大小。 stat 为我盒子上的这些设备返回大小为 0。我认为您需要通过其他方式获得尺寸。

关于地址空间:x86-64 使用 2^48 字节的虚拟地址空间,即 256 TiB。您不能使用所有这些,但在大多数进程中很容易就有 ~127 TiB 的连续地址空间。

关于c - 使用 mmap() 搜索大文件 (~1TB),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35655915/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com