- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。
问题如下:-
隐私和匿名化
马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意 - 它决定发布有关州雇员的“匿名”数据,显示他们每次去医院就诊的情况。
目标是帮助研究人员。该州花时间删除姓名、地址和社会保险号等标识符。马萨诸塞州州长向公众保证,这足以保护患者隐私。
当时的一名研究生发现这种方法存在重大缺陷。她索取了一份数据副本,并通过整理多列数据,她能够识别出州长的健康记录。
这表明在匿名化数据时需要格外小心。确保隐私的一种方法是聚合数据,这样任何记录都可以映射到至少 k 个个体,对于某个较大的 k 值。
我想通过某种示例集实际体验这个问题,然后了解执行此匿名化实际需要什么。我希望你清楚这个问题......
我没有有经验的人可以帮我处理这类问题。请不要投票结束这个问题.....因为如果发生这种情况我会很无助......
谢谢,如果需要更多解释,请提出问题。
最佳答案
我只是复制粘贴了您文本的一部分,然后偶然发现了 this
这有助于理解您的问题:
At the time GIC released the data, William Weld, then Governor of Massachusetts, assured the public that GIC had protected patient privacy by deleting identifiers. In response, then-graduate student Sweeney started hunting for the Governor’s hospital records in the GIC data. She knew that Governor Weld resided in Cambridge, Massachusetts, a city of 54,000 residents and seven ZIP codes. For twenty dollars, she purchased the complete voter rolls from the city of Cambridge, a database containing, among other things, the name, address, ZIP code, birth date, and sex of every voter. By combining this data with the GIC records, Sweeney found Governor Weld with ease. Only six people in Cambridge shared his birth date, only three of them men, and of them, only he lived in his ZIP code. In a theatrical flourish, Dr. Sweeney sent the Governor’s health records (which included diagnoses and prescriptions) to his office.
轰!但这只是 Sweeney 职业生涯早期的里程碑。 2000 年,她表明,87% 的美国人可以仅使用三位信息进行唯一识别:邮政编码、出生日期和性别。
好吧,正如您所说,您需要一个随机数据库,并确保任何记录都可以映射到至少 k 个个体,对于某个较大的 k 值。
换句话说,您需要清除数据库中的歧视性信息。例如,如果您只在数据库中保留性别 (M/F),则无法找出谁是谁。因为只有两个条目:M 和 F。
但是,如果您取生日,那么您的条目总数将变为或多或少 2*365*80 ~=50.000。 (我选择了80年)。即使您的数据库包含 500.000 个人,也有可能只有其中一个人(假设是 1985 年 3 月 3 日出生的男性)具有此类条目,因此您可以认出他。
这只是一种依赖组合的简单方法。如果您想要更复杂的东西,请查找 correlated information和 PCA
编辑:让我们举个例子。假设我正在从事医疗方面的工作。如果我只保留
这导致类别总数为 2*4*2*50*12*10 = 96.000 个类别。因此,如果您的数据库包含 200.000.000 个条目(粗略估计数据库中美国居民的数量),您将无法识别某人。
这也意味着您不给出任何进一步的信息,没有邮政编码等...仅给出的 6 条信息,您可以计算出一些不错的统计数据(12 月出生的人生命周期更长吗?)但无法识别,因为 96.000 远低于 200.000.000。
但是,如果您只有所居住城市的数据库,例如有 200.000 居民,则无法保证匿名。因为 200.000 比 96.000“大不了多少”。 (“不大”是一个真正复杂的科学术语,需要概率方面的知识 :P )
关于algorithm - 隐私和匿名化 "Algorithm",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6249013/
我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。 问题如下:- 隐私和匿名化 马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意
我最近接受了一次面试,面试官给了我一些伪代码并提出了相关问题。不幸的是,由于准备不足,我无法回答他的问题。由于时间关系,我无法向他请教该问题的解决方案。如果有人可以指导我并帮助我理解问题,以便我可以改
这是我的代码 public int getDist(Node root, int value) { if (root == null && value !=0) return
就效率而言,Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少? 我知道这与具体的实现和硬件密切相关,但对于一般情况应该有某种指南或某人的一些实验结果。 在网上搜索了一下,问了一些他们认为
我想学习一些关于分布式算法的知识,所以我正在寻找任何书籍推荐。我对理论书籍更感兴趣,因为实现只是个人喜好问题(我可能会使用 erlang(或 c#))。但另一方面,我不想对算法进行原始的数学分析。只是
我想知道你们中有多少人实现了计算机科学的“ classical algorithms ”,例如 Dijkstra's algorithm或现实世界中的数据结构(例如二叉搜索树),而不是学术项目? 当有
我正在解决旧编程竞赛中的一些示例问题。在这个问题中,我们得到了我们有多少调酒师以及他们知道哪些食谱的信息。制作每杯鸡尾酒需要 1 分钟,我们需要使用所有调酒师计算是否可以在 5 分钟内完成订单。 解决
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
我开始学习 Nodejs,但我被困在中间的某个地方。我从 npm 安装了一个新库,它是 express -jwt ,它在运行后显示某种错误。附上代码和错误日志,请帮助我! const jwt = re
我有一个证书,其中签名算法显示“sha256rsa”,但指纹算法显示“sha1”。我的证书 SHA1/SHA2 的标识是什么? 谢谢! 最佳答案 TL;TR:签名和指纹是完全不同的东西。对于证书的强度
我目前在我的大学学习数据结构类(class),并且在之前的类(class)中做过一些算法分析,但这是我在之前的类(class)中遇到的最困难的部分。我们现在将在我的数据结构类(class)中学习算法分
有一个由 N 个 1x1 方格组成的区域,并且该区域的所有部分都是相连的(没有任何方格无法到达的方格)。 下面是一些面积的例子。 我想在这个区域中选择一些方块,并且两个相邻的方块不能一起选择(对角接触
我有一些多边形形状的点列表,我想将其包含在我页面上的 Google map 中。 我已经从原始数据中删除了尽可能多的不必要的多边形,现在我剩下大约 12 个,但它们非常详细以至于导致了问题。现在我的文
我目前正在实现 Marching Squares用于计算等高线曲线,我对此处提到的位移位的使用有疑问 Compose the 4 bits at the corners of the cell to
我正在尝试针对给定算法的约束满足问题实现此递归回溯函数: function BACKTRACKING-SEARCH(csp) returns solution/failure return R
是否有包含反函数的库? 作为项目的一部分,我目前正在研究测向算法。我正在使用巴特利特相关性。在 Bartlett 相关性中,我需要将已经是 3 次矩阵乘法(包括 Hermitian 转置)的分子除以作
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
问题的链接是UVA - 1394 : And There Was One . 朴素的算法是扫描整个数组并在每次迭代中标记第 k 个元素并在最后停止:这需要 O(n^2) 时间。 我搜索了一种替代算法并
COM 中创建 GUID 的函数 (CoCreateGUID) 使用“分散唯一性算法”,但我的问题是,它是什么? 谁能解释一下? 最佳答案 一种生成 ID 的方法,该 ID 具有一定的唯一性保证,而不
在做一个项目时我遇到了这个问题,我将在这个问题的实际领域之外重新措辞(我想我可以谈论烟花的口径和形状,但这会使理解更加复杂).我正在寻找一种(可能是近似的)算法来解决它。 我有 n 个不同大小的容器,
我是一名优秀的程序员,十分优秀!