gpt4 book ai didi

standards - UUID 的人类可读替代方案

转载 作者:行者123 更新时间:2023-12-04 12:27:40 26 4
gpt4 key购买 nike

我正在开发一个系统,该系统大量使用假名来向研究人员提供隐私关键数据。这些假名应具有以下属性:

  • 它们不应包含任何信息(例如创建时间、与其他假名的关系、编码数据等)。
  • 创建独特的假名应该很容易。
  • 它们应该是人类可读的。这意味着人们在大声朗读时应该很容易比较、复制和理解它们。

  • 我的第一个想法是使用 UUID4 .他们在 (1) 和 (2) 方面做得很好,但在 (3) 方面不太好。

    一种变体是使用更宽的字母表对 UUID 进行编码,从而产生更短的字符串(参见例如 shortuuid )。但我不确定这是否真的提高了可读性。

    我目前正在研究的另一种方法是 2005 年发表的一篇题​​为 "An optimal code for patient identifiers" 的论文。旨在解决我的问题。那里描述的算法创建了具有 30 位熵的 8 个字符的假名。不过,我更愿意使用更广泛审查的标准。

    然后还有 git 方法:只显示实际假名的前几个字符。但这意味着假名可能会在一段时间后失去其独特性。

    所以我的问题是:对于人类可读的唯一 ID,是否有任何广泛使用的标准?

    最佳答案

    不知道任何广泛使用的标准。这是一个不广泛使用的:

    Proquints

    https://arxiv.org/html/0901.4016

    https://github.com/dsw/proquint

    UUID4(128 位)将转换为 8 个 proquint。如果太多了,你可以取 UUID4 的最后 64 位(= 只取 64 个随机位)。这并不会让它神奇地失去独特性;只会增加碰撞的可能性,它一开始不是零,你可以用数学方法估计它是否仍然适合你的目的。

    关于standards - UUID 的人类可读替代方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49506313/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com