gpt4 book ai didi

c++ - 使用 openssl 正确获取文件的 sha-1

转载 作者:可可西里 更新时间:2023-11-01 14:38:36 25 4
gpt4 key购买 nike

我正在尝试为多个文件获取 sha-1。我目前所做的是在给定路径中循环文件,分别打开和读取每个文件并将内容加载到缓冲区中,然后将其发送到 openssl 的 SHA 函数以获取哈希。代码看起来像这样:

    void ReadHashFile(LPCTSTR name)
{
FILE * pFile;
long lSize;
char * buffer;
size_t result;

pFile = _tfopen ( name , L"rb" );
if (pFile==NULL) {fputs ("File error",stderr); return;}

// obtain file size:
fseek (pFile , 0 , SEEK_END);
lSize = ftell (pFile);
rewind (pFile);

if(lSize == -1){fputs ("Read Error",stderr);return;}

// allocate memory to contain the whole file:
buffer = (char*) malloc (sizeof(char)*lSize);
if (buffer == NULL) {fputs ("Memory error",stderr); return;}

// copy the file into the buffer:
result = fread (buffer,1,lSize,pFile);
if (result != lSize) {fputs ("Reading error",stderr); return;}

/* the whole file is now loaded in the memory buffer. */

// terminate
fclose (pFile);

//Do what ever with buffer
unsigned char ibuf[] = "compute sha1";
unsigned char obuf[20];

SHA1((const unsigned char*)buffer, strlen((const char*)buffer), obuf);
fwprintf(stderr, L"file %s\n", name);
int i;
for (i = 0; i < 20; i++) {
printf("%02x ", obuf[i]);
}
printf("\n");


free(buffer);
}

有些文件似乎不可读,有些给我一个 -1 大小,有些我只能读取前 2-3 个字节,这给了很多文件相同的 sha,即使它们不同。

如果有人可以帮助我解决这个问题或者如果有人有文件散列方面的经验,我将不胜感激。哦,有没有一种方法可以在不首先将整个文件加载到内存的情况下获取文件的 sha1,我的意思是考虑到大文件,这个解决方案不会起作用。

问候

最佳答案

如果您在读取文件内容时遇到问题,调用散列函数代码之前,那么您的问题与散列无关。

您应该使用标准 fopen()函数,而不是 _tfopen() .在 C 中,通常最好避免以下划线字符开头的内容。特别是因为 _tfopen()似乎映射到 fopen()或 Windows 特定的 _wfopen()取决于是否激活了所谓的“unicode 支持”。或者,在纯 Windows 应用程序中,您可以依赖 Win32 函数,例如 CreateFile() .

读取内存中的整个文件然后对其进行散列是很粗糙的。例如,它将无法处理大于可用 RAM 的文件。此外,为了知道文件大小,您必须对其进行搜索,这是不可靠的(可能存在伪文件,它们实际上是某些数据生成过程的管道,无法进行搜索)。哈希函数可以分块处理数据;你应该使用一个小缓冲区(8 kB 是传统大小)并使用 SHA1_Init() , SHA1_Update()SHA1_Final()功能。

fread()不一定读取您请求的那么多数据。这不是错误。

当您调用 SHA1() 时, 你使用 strlen()在您的缓冲区上,这是伪造的。 strlen()返回一个字符串的长度;简而言之,直到下一个值为零的字节为止的字节数。许多文件包含值为 0 的字节。如果文件不包含,则无法保证您的缓冲区包含任何值为 0 的字节,因此对 strlen() 的调用最终可能会读取分配缓冲区之外的内存(这不好)。由于您遇到了获取文件长度和分配那么大缓冲区的麻烦,因此您至少应该使用该长度,而不是尝试使用不这样做的函数重新计算它。

总结一下:您的代码应该是这样的(未经测试):

/*
* Hash a file, which name is given. Hash output is written out in
* buffer "out[]". The hash output consists in exactly 20 bytes.
* On success, 0 is returned; on error, returned value is -1 and
* out[] is unaltered.
*/
int
do_sha1_file(char *name, unsigned char *out)
{
FILE *f;
unsigned char buf[8192];
SHA_CTX sc;
int err;

f = fopen(name, "rb");
if (f == NULL) {
/* do something smart here: the file could not be opened */
return -1;
}
SHA1_Init(&sc);
for (;;) {
size_t len;

len = fread(buf, 1, sizeof buf, f);
if (len == 0)
break;
SHA1_Update(&sc, buf, len);
}
err = ferror(f);
fclose(f);
if (err) {
/* some I/O error was encountered; report the error */
return -1;
}
SHA1_Final(out, &sc);
return 0;
}

不要忘记包含相关的文件头! (<stdio.h> 和来自 OpenSSL 的 sha.h)

关于c++ - 使用 openssl 正确获取文件的 sha-1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3467097/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com