gpt4 book ai didi

c++ - 在 C++ 中使用哈希将单词映射到整数

转载 作者:塔克拉玛干 更新时间:2023-11-03 07:18:38 25 4
gpt4 key购买 nike

是否有一致且广泛使用的将字符串映射到整数的包?我正在使用一个可能有 25 亿个单词的数据集 (Wikipedia),并且想要一种将单词映射到唯一整数标识符的可靠且快速的方法。

最佳答案

你没有提到你愿意接受的碰撞概率是多少。使用完美的 64 位哈希,您将有 10^-6 的机会在 250 万个单词中发生冲突。这是在 64 位系统上使用 std::hash 可以获得的最佳结果。如果这还不够,您必须使用更大的哈希值,如 MD5(128 位和 10^-26 碰撞几率)或 SHA-1(160 位和 10^-35 碰撞几率)。发生冲突的可能性还取决于散列函数的质量。您应该使用众所周知的加密哈希,例如 MD5 或 SHA-1,这可能与您的速度要求相矛盾。

关于c++ - 在 C++ 中使用哈希将单词映射到整数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29839865/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com