gpt4 book ai didi

python - 在单元测试中提取哈希种子

转载 作者:行者123 更新时间:2023-12-02 02:08:18 24 4
gpt4 key购买 nike

我需要获取 python 使用的随机哈希种子来复制失败单元测试。

如果 PYTHONHASHSEED 设置为非零整数,sys.flags.hash_randomization 会可靠地提供它:

$ export PYTHONHASHSEED=12345
$ python3 -c 'import sys, os;print(sys.flags.hash_randomization, os.environ.get("PYTHONHASHSEED"))'
12345 12345

但是,如果散列是随机的,则它仅说明使用了种子,而不是:

$ export PYTHONHASHSEED=random
$ python3 -c 'import sys, os;print(sys.flags.hash_randomization, os.environ.get("PYTHONHASHSEED"))'
1 random

sys.hash_info 中的信息从不包含取决于种子的数据。使用 hash function since python3.4 ,尝试从给定的哈希值重建种子似乎也是不可行的。

<小时/>

上下文:在微调算法时,我们看到了依赖于 set/dict 迭代顺序的 heisenbug。复制它们需要测试种子,最坏的情况下需要测试 4294967295 个种子,但即使我们平均约 100 个测试也相当冗长。

我们考虑过始终在外部将 PYTHONHASHSEED 设置为随机但已知的值,但希望避免这个额外的层。

最佳答案

否,随机值被分配给 _Py_HashSecret unionuc 字段,但这永远不会暴露给 Python 代码。这是因为可能值的数量远远大于设置 PYTHONHASHSEED 可以产生的数量。

当您未设置PYTHONHASHSEED或将其设置为random时,Python会生成一个随机的24字节值用作种子。如果将 PYTHONHASHSEED 设置为整数,则该数字将通过 linear congruential generator 传递。产生实际的种子(参见 lcg_urandom() function )。问题是 PYTHONHASHSEED 仅限于 4 个字节。可能的种子值比您单独通过 PYTHONHASHSEED 设置的种子值多 256 ** 20 倍。

可以使用ctypes访问_Py_HashSecret结构中的内部哈希值:

from ctypes import (
c_size_t,
c_ubyte,
c_uint64,
pythonapi,
Structure,
Union,
)


class FNV(Structure):
_fields_ = [
('prefix', c_size_t),
('suffix', c_size_t)
]


class SIPHASH(Structure):
_fields_ = [
('k0', c_uint64),
('k1', c_uint64),
]


class DJBX33A(Structure):
_fields_ = [
('padding', c_ubyte * 16),
('suffix', c_size_t),
]


class EXPAT(Structure):
_fields_ = [
('padding', c_ubyte * 16),
('hashsalt', c_size_t),
]


class _Py_HashSecret_t(Union):
_fields_ = [
# ensure 24 bytes
('uc', c_ubyte * 24),
# two Py_hash_t for FNV
('fnv', FNV),
# two uint64 for SipHash24
('siphash', SIPHASH),
# a different (!) Py_hash_t for small string optimization
('djbx33a', DJBX33A),
('expat', EXPAT),
]


hashsecret = _Py_HashSecret_t.in_dll(pythonapi, '_Py_HashSecret')
hashseed = bytes(hashsecret.uc)

但是,您实际上无法利用此信息任何事情。您无法在新的 Python 进程中设置 _Py_HashSecret.uc ,因为这样做会破坏大多数字典键设置,然后您才能从 Python 代码中执行此操作(Python 内部结构严重依赖于字典),并且您的机会等于 256**4 个可能的 LCG 值之一的哈希值非常小。

您将 PYTHONHASHSEED 设置为任何地方的已知值的想法是一种更可行的方法。

关于python - 在单元测试中提取哈希种子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41088635/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com