gpt4 book ai didi

java - 加载文件 MD5 的最快方法是什么?

转载 作者:搜寻专家 更新时间:2023-11-01 09:29:31 25 4
gpt4 key购买 nike

我想加载多个不同文件的MD5。我正在关注这个 answer这样做但主要问题是加载文件的 MD5(可能有数百个)所花费的时间很多。

有没有什么方法可以在不花很多时间的情况下找到文件的MD5。

注意 - 文件的大小可能很大(可能高达 300MB)。

这是我正在使用的代码-

import java.io.*;
import java.security.MessageDigest;

public class MD5Checksum {

public static byte[] createChecksum(String filename) throws Exception {
InputStream fis = new FileInputStream(filename);

byte[] buffer = new byte[1024];
MessageDigest complete = MessageDigest.getInstance("MD5");
int numRead;

do {
numRead = fis.read(buffer);
if (numRead > 0) {
complete.update(buffer, 0, numRead);
}
} while (numRead != -1);

fis.close();
return complete.digest();
}

// see this How-to for a faster way to convert
// a byte array to a HEX string
public static String getMD5Checksum(String filename) throws Exception {
byte[] b = createChecksum(filename);
String result = "";

for (int i=0; i < b.length; i++) {
result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
}
return result;
}

public static void main(String args[]) {
try {
System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
// output :
// 0bb2827c5eacf570b6064e24e0e6653b
// ref :
// http://www.apache.org/dist/
// tomcat/tomcat-5/v5.5.17/bin
// /apache-tomcat-5.5.17.exe.MD5
// 0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
}
catch (Exception e) {
e.printStackTrace();
}
}
}

最佳答案

您不能使用哈希来确定内容的任何相似性。
例如,生成 hellostackoverflow1 和 hellostackoverflow2 的 MD5 会计算两个哈希值,其中字符串表示的所有字符都不匹配(7c35[...]85fa vs b283[...]3d19)。那是因为哈希是根据文件的二进制数据计算的,因此是同一事物的两种不同格式 - 例如.txt 和同一文本的 .docx - 具有不同的哈希值。

但如前所述,使用 native 代码(即 NDK)可能会提高一些速度。此外,如果您仍想比较文件的精确匹配,请先比较以字节为单位的大小,然后使用具有足够速度和低冲突风险的哈希算法。如前所述,CRC32 没问题。

关于java - 加载文件 MD5 的最快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48239761/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com