logging - 如何在不破坏新旧数据关系的情况下匿名化新日志记录？-6ren

logging - 如何在不破坏新旧数据关系的情况下匿名化新日志记录？

转载作者：行者123 更新时间：2023-12-02 07:56:03

24

4

我正在生成有关用户操作的日志记录。出于隐私原因，这些需要在 N 天后匿名。但是，我还需要针对这些匿名数据运行报告。

我希望真实用户 A 的所有操作都列在匿名日志中的假用户 X 下 - 一个用户的记录必须仍然保留在日志中的一个(假)用户的记录。这显然意味着我需要在真实用户和虚假用户之间建立一些映射，我在对新记录进行匿名处理时会用到这些映射。当然，这完全违背了匿名化的目的——如果有映射，就可以恢复原来的用户数据。

例子:

User Frank Müller bought 3 cans of soup.

Three days later, User Frank Müller asked for refund for 3 cans of soup.

当我匿名化第二个日志条目时，第一个日志条目已经被匿名化。我仍然希望两个日志记录都指向同一个用户。好吧，这对我来说在实践中似乎几乎是不可能的，所以我想使用一些拆分数据的方法，希望能让我在数据中保持尽可能多的完整性。也许将日志用作数据仓库 - 将所有内容拆分为事实，并接受无法分析某些维度的事实？

你遇到过这样的场景吗？我在这里有什么选择？我显然需要做出某种妥协——什么对你有效？如何充分利用这些数据？

最佳答案

冒着学究气的风险，您描述的不是匿名数据，而是假名数据。也就是说，您是否考虑过使用某种键控哈希函数，例如 HMAC-SHA1执行假名生成？您可以通过这样的方案达成公平的妥协:

将您的分析数据库与 OLTP 数据库分开。尽量减少同时访问这两者的人数。
将 HMAC key 保留给将数据复制到分析数据库的应用程序专用，不能从任何一个数据库访问。也许让应用程序在安装时生成它并使用硬编码 key 对其进行混淆处理，这样系统管理员和软件开发人员都不会发现如果没有串通就可以轻松搞定。
请勿从 OLTP 数据库中复制真实姓名和地址或任何等效或易于链接的键，例如用户号、发票号等，而不对其进行哈希处理。

如果这样做，有两种主要的攻击途径可以通过假名获取真实身份。

直接攻击:获取 HMAC key ，计算每个已知用户的假名，并在结果表中反向查找。 (HMAC 是不可逆的:仅给定化名和 key ，您无法切实获得原始值。)
信息融合攻击:在不知道 key 和身份列表的情况下，下一个最好的办法就是尝试将假名数据与其他数据相关联——甚至可能是 OLTP 数据库的被盗副本。

假名数据集是notoriously vulnerable到信息融合攻击——你必须去除或“模糊”很多关键的相关信息以使数据集抵抗这种攻击，但你需要去除多少是topic of current research .

关于logging - 如何在不破坏新旧数据关系的情况下匿名化新日志记录？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/851481/

24

4

0

文章推荐： javascript - 使用 Javascript 进行面向对象编程 - 构造函数

文章推荐： Scala:在 if 条件中声明 val

文章推荐： delphi - 避免 IBX 组件的事件事务处理时间过长

文章推荐： wpf - 类似于 WPF SL3 中的 DataForm 控件

javascript - 匿名 promise
所以 promises 对我来说是相当新的，但我喜欢这个想法。之前... 我以前用过这个，它只在文件被完全读取并按预期工作后才简单地返回数据: function something{ fo
c++ - 编译器错误{匿名}
当我尝试编译时出现以下错误: In member function 'double search::IDAstar::dfs(const State&, double)': 153:18: erro
c# - 匿名 lambda ？
最接近下面的是什么？不幸的是，下面的方法名称编译错误。 int val = delegate(string s) { return 1; }("test"); 我也尝试了 (...)=>{..
wordpress评论有时出现(匿名)的现象解决方案
1、评论提交超时：大家可能会发现，在提交评论非常缓慢时最容易出现“匿名”现象，这种情况主要是由于评论提交时执行时间过长引起的，可能是装了比较耗时的插件(比如Akismet等)；很多博
lua - 在同一个(匿名)表中使用表键
我想在同一个表中使用一个键插入一个匿名表，如下所示: loadstring( [[return { a = "One", b = a.." two" }]] ) 在我看来，这应该返回下表: {
email - 匿名 SMTP 服务
有人知道免费的匿名 smtp 服务吗？我想让我的应用程序的用户能够偶尔向我发送一封匿名电子邮件，而无需配置输入他们电子邮件帐户的服务器。我想我可以为此目的设置一个 gmail 帐户并将凭据嵌入到应用程
plsql - 匿名 block 内的更新失败但可以解决
我有这个数据补丁: ALTER TABLE MY_TABLE ADD new_id number; DECLARE MAX_ID NUMBER; BEGIN SELECT max(id)
python - 匿名 Pandas 数据框列
假设我有以下数据框。 Person_info (Bob, 2) (John, 1) (Bek, 10) (Bob, 6) 我想通过保持它们的值(value)来匿名。 Person_info (Pers
ip - 匿名 IPv6 地址
根据多个国家/地区的法律要求，我们在日志文件中匿名化用户的 IP 地址。使用 IPv4，我们通常只是匿名化最后两个字节，例如。而不是 255.255.255.255我们记录255.255.\*.\*
syntax - 匿名 Scala 函数语法
我正在学习有关 Scala 的更多信息，但在理解 http://www.scala-lang.org/node/135 中的匿名函数示例时遇到了一些麻烦。 .我复制了下面的整个代码块: object
Drupal 商务愿望 list 匿名
我正在开设一个 Commerce 网上商店。我想添加 Commerce 愿望 list ，但现在该模块仅适用于注册用户，因为未注册它不起作用。我将显示 block 中的角色设置为匿名，但即使在更改
javascript - 匿名 Google 云端硬盘上传创建新文件夹
我正在使用发现的 Google Apps 脚本 here让匿名用户将文件上传到我的 Google 云端硬盘。我想要的是脚本使用表单上输入的名称创建一个文件夹，然后将文件存放在该文件夹中。到目前为止
javascript - 匿名 setTimeout 函数
我遇到的情况是，我正在等待一些事件的发生。我看到很多关于如何使用命名函数使用 setTimeout 的好例子，但是有没有办法使用某种匿名方法来设置超时？代码目前看起来像这样: testForObje
java - 什么时候使用(匿名)内部类是安全泄漏的？
我一直在阅读一些关于 Android 内存泄漏的文章，并观看了来自 Google I/O 的这个有趣的视频 on the subject . 尽管如此，我仍然不完全理解这个概念，尤其是当它对用户安全或
java - Spring 匿名/回调类用于数据持久化的困难时期
我正在尝试适应 Spring JDBC，但让我烦恼的是使用这些匿名类，我们不能传递任何局部变量，除非它们是最终的，这可能很容易安排，但是如果我需要循环一个怎么办？数组还是集合？我无法将“FedMode
.net - 匿名 Oracle 参数？
我正在尝试将数据输入到 Oracle 数据库中。这将是一个带有多个参数的存储过程……我的意思是像 27 个参数(别问，我没有设计它)…… 现在我必须以某种方式填充此存储过程的参数...存储过程采用的大
scala - 匿名 PartialFunction 语法
我之前问过这个问题:Combine a PartialFunction with a regular function 然后意识到，我实际上并没有问对。所以，这是另一个尝试。如果我这样做: va
javascript - 匿名 qt 脚本函数的上下文？
我想从 C++ 执行一个匿名的 Qt 脚本函数，但不知道要使用的 QScriptContext。这是脚本: { otherObject.Text = "Hello World"; setTi
JavaScript:匿名 promise 解析器函数中的递归
我有一个返回 promise 的函数。 (本例中为 foo) 我尝试在声明为匿名的解析函数中调用此函数。我已经尝试过使用this 但这不起作用。我的代码是这样的 var foo = functio
c# - 匿名 JSON 对象集合的单元测试
这个问题的灵感来自这个 excellent example .我有 ASP.NET Core MVC 应用程序，我正在编写 unit tests为 Controller 。其中一种方法返回带有匿名类型

首页

博学

6Ren·AI

商城

logging - 如何在不破坏新旧数据关系的情况下匿名化新日志记录？