gpt4 book ai didi

algorithm - 隐私和匿名化 "Algorithm"

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:25:25 28 4
gpt4 key购买 nike

我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。

问题如下:-

隐私和匿名化

马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意 - 它决定发布有关州雇员的“匿名”数据,显示他们每次去医院就诊的情况。

目标是帮助研究人员。该州花时间删除姓名、地址和社会保险号等标识符。马萨诸塞州州长向公众保证,这足以保护患者隐私。

当时的一名研究生发现这种方法存在重大缺陷。她索取了一份数据副本,并通过整理多列数据,她能够识别出州长的健康记录。

这表明在匿名化数据时需要格外小心。确保隐私的一种方法是聚合数据,这样任何记录都可以映射到至少 k 个个体,对于某个较大的 k 值。

我想通过某种示例集实际体验这个问题,然后了解执行此匿名化实际需要什么。我希望你清楚这个问题......

我没有有经验的人可以帮我处理这类问题。请不要投票结束这个问题.....因为如果发生这种情况我会很无助......

谢谢,如果需要更多解释,请提出问题。

最佳答案

我只是复制粘贴了您文本的一部分,然后偶然发现了 this

这有助于理解您的问题:

At the time GIC released the data, William Weld, then Governor of Massachusetts, assured the public that GIC had protected patient privacy by deleting identifiers. In response, then-graduate student Sweeney started hunting for the Governor’s hospital records in the GIC data. She knew that Governor Weld resided in Cambridge, Massachusetts, a city of 54,000 residents and seven ZIP codes. For twenty dollars, she purchased the complete voter rolls from the city of Cambridge, a database containing, among other things, the name, address, ZIP code, birth date, and sex of every voter. By combining this data with the GIC records, Sweeney found Governor Weld with ease. Only six people in Cambridge shared his birth date, only three of them men, and of them, only he lived in his ZIP code. In a theatrical flourish, Dr. Sweeney sent the Governor’s health records (which included diagnoses and prescriptions) to his office.

轰!但这只是 Sweeney 职业生涯早期的里程碑。 2000 年,她表明,87% 的美国人可以仅使用三位信息进行唯一识别:邮政编码、出生日期和性别

好吧,正如您所说,您需要一个随机数据库,并确保任何记录都可以映射到至少 k 个个体,对于某个较大的 k 值。

换句话说,您需要清除数据库中的歧视性信息。例如,如果您只在数据库中保留性别 (M/F),则无法找出谁是谁。因为只有两个条目:M 和 F。

但是,如果您取生日,那么您的条目总数将变为或多或少 2*365*80 ~=50.000。 (我选择了80年)。即使您的数据库包含 500.000 个人,也有可能只有其中一个人(假设是 1985 年 3 月 3 日出生的男性)具有此类条目,因此您可以认出他。

这只是一种依赖组合的简单方法。如果您想要更复杂的东西,请查找 correlated informationPCA

编辑:让我们举个例子。假设我正在从事医疗方面的工作。如果我只保留

  • 性别:2 种可能性(男、女)
  • 血型:4 种可能性(O、A、B、AB)
  • 恒河猴:2 种可能性 (+, -)
  • 他们居住的州:50 种可能性(如果您在美国)
  • 出生月份:12 种可能性(影响婴儿死亡率)
  • 他们的年龄类别:10 种可能性(0-9 岁、10-19 岁 ... 90-无穷大)

这导致类别总数为 2*4*2*50*12*10 = 96.000 个类别。因此,如果您的数据库包含 200.000.000 个条目(粗略估计数据库中美国居民的数量),您将无法识别某人。

这也意味着您给出任何进一步的信息,没有邮政编码等...给出的 6 条信息,您可以计算出一些不错的统计数据(12 月出生的人生命周期更长吗?)但无法识别,因为 96.000 远低于 200.000.000。

但是,如果您只有所居住城市的数据库,例如有 200.000 居民,则无法保证匿名。因为 200.000 比 96.000“大不了多少”。 (“不大”是一个真正复杂的科学术语,需要概率方面的知识 :P )

关于algorithm - 隐私和匿名化 "Algorithm",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6249013/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com