gpt4 book ai didi

r - 在 r 中混淆聚类数据并保护隐私的技术

转载 作者:行者123 更新时间:2023-12-04 08:48:47 24 4
gpt4 key购买 nike

背景

我有一些私有(private)调查数据,其中包含一列 secret 信息:调查对象的地理位置。在任何情况下都不能发布这些信息。

在调查研究中很常见,为了让用户正确计算我的调查数据集的方差,这些用户要么需要该地理位置( Not Acceptable ),要么需要一组 replicate weights .我可以创建那组复制权重;但是,查看这些权重之间的相关性并反算哪些受访者共享相同的地理位置非常容易。这也是 Not Acceptable 。

要帮助我解决这个问题,您不必熟悉 replicate weights - 只需将它们视为几列强相关的聚类数据。

我知道如果我想保持这种聚类,一个邪恶的数据用户总是会对谁共享地理位置有半体面的猜测;我只是想让那个猜谜游戏不那么精确。在未混淆的复制权重上,邪恶的数据用户可以找出 100% 的案例。

请求

我正在寻找一种技术

  • 防止公共(public)使用文件用户从我的复制权重变量之间的相关性中轻松推断出共享地理位置
  • 不会消除我的数据列之间的相关性(复制权重变量)
  • 可以在 R data.frame 上实现没有大量时间投资的对象

  • 我说共享是因为邪恶的用户可能不知道位置在哪里,但他们可能知道两个调查对象是否来自同一个位置——这是一种 Not Acceptable 可能性。

    我尝试过的

    我真的不想在这里重新发明轮子。我正在寻找 r 语法、r 包或任何其他相对容易实现的东西。我找到了 one , two , three , four描述所有适合我的目的的技术的论文;不幸的是,没有一个作者愿意分享实际的代码来实现它们。

    我可以做一些简单的事情,比如根据正态分布在我的复制权重列中添加和减去随机值,但我更愿意依赖比我更了解隐私问题的人的工作。

    谢谢!!!!

    最佳答案

    我写了这个九步教程来完成这个过程,试图回答我自己的问题。我不是隐私/保密领域的专家,我很想听听关于这个想法和其他想法的反馈。谢谢!

    http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html

    关于r - 在 r 中混淆聚类数据并保护隐私的技术,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24202650/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com