gpt4 book ai didi

python - 如何将字符串散列为 [0 :1]? 中的 float

转载 作者:太空狗 更新时间:2023-10-29 20:51:14 25 4
gpt4 key购买 nike

我有一个包含多个字符串的数据集。我想将这些字符串中的每一个关联到一个 float ,“随机”分布在 [0:1] 范围内。示例:

>>> myfunction(string_1)
0.26756754
>>> myfunction(string_2)
0.86764534

random 不能满足我的需要,因为它不将任何字符串作为输入/确定性参数。我正在寻找更像哈希函数的东西。

最佳答案

快速便携的解决方案:

from zlib import crc32

def bytes_to_float(b):
return float(crc32(b) & 0xffffffff) / 2**32

这会将字节字符串转换为介于 0.0 和 1.0 之间的 float 。如果您使用的是 unicode 字符串(例如,在 python 3 中),那么您需要对其进行编码:

def str_to_float(s, encoding="utf-8"):
return bytes_to_float(s.encode(encoding))

示例

>>> str_to_float(u"café")
0.5963937465567142

这应该在任何机器和任何版本的 python 上给出相同的结果(在 python 2.7 和 3.5 上测试)。

注意:此处的 & 0xffffffff 是为了保证 unsigned int 结果。它是必需的,因为根据 python 版本 crc32(b) 可能会返回一个有符号或无符号的 int。

编辑

如果您想要比 CRC32 更“随机”的东西,您可以改用哈希函数,例如 SHA256:

from struct import unpack
from hashlib import sha256

def bytes_to_float(b):
return float(unpack('L', sha256(b).digest()[:8])[0]) / 2**64

性能测试

            String length
Function 7 70 700 7000
b2f_crc32 0.34 0.38 0.87 5.59
b2f_md5 0.96 1.08 2.11 11.13
b2f_sha1 0.99 1.07 1.76 8.37
b2f_sha256 1.11 1.20 2.60 16.44
b2f_rnd 6.59 6.55 6.59 6.60

基本上,CRC32 解决方案是迄今为止最快的短字符串解决方案(比 @user3030010 的 random=RND 解决方案快 18 倍)。无论字符串长度如何,它都比 SHA256 快大约 3 倍。 SHA256 比 MD5 慢,而 MD5 又比 SHA1 慢(非常短的字符串除外)。但是,RND 选项不依赖于字符串长度,因此当字符串很长时,它可能是最快的选项(但请参阅我对@user3030010 的回答的评论):在我的计算机上,对于长度超过 2500 的字符串,它优于 SHA256字符,对于长度超过 8000 个字符的字符串,它优于 CRC32。

这是使用 timeit.timeit() 的代码:

from __future__ import print_function
[...] # define b2f_crc32, b2f_md5 and so on.
for func in ("b2f_crc32", "b2f_md5", "b2f_sha1", "b2f_sha256", "b2f_rnd"):
for length in (7, 70, 700, 7000):
t = timeit('b2f(b"%s")'%(b"x"*length),
'from __main__ import %s as b2f' % func)
print("%.2f"%t, end="\t")
print()

关于python - 如何将字符串散列为 [0 :1]? 中的 float ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40351791/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com