R编程: Identifying Composite Keys-6ren

R编程: Identifying Composite Keys

转载作者：行者123 更新时间：2023-12-02 01:34:21

25

4

原始问题:我的工作要求我经常分析大型数据集上的数据 - 基数、关系、唯一性等。。。 .，并经常这样做。目的是使用 R 分析数据并在 R Markdown 中创建报告。

我的问题是:1.将数据加载到R数据帧中2. 如何识别数据库术语中所谓的复合主键？

例如，我有一个包含 75,000 条记录的表。我执行 rapply 来获取每个变量的唯一计数。但是，除非其中一个变量的计数为 75,000，否则就不存在单主键。换句话说，没有一个变量可以用来唯一地识别单个观察结果。

然后，目标就变成寻找唯一标识每个观察值(行)的变量(列)组合。这可以是 160 个变量数据框/表中的两个、三个或四个变量/列。当然，如果没有唯一标识每一行或观察的键组合，则总是可能存在重复项。

我已经成功地完成了一个“for”循环(丑陋)，但我认为有一些优雅、更有效的方法可以做到这一点。

如何找到哪些变量构成复合主键？

修改后的问题:

    ############### Data1 - 2 columns - one PK
    data1 <- data.frame(rep_len(1, length.out = 10))
    data1$PK <- rep_len(1:10, length.out = 10)

    names(data1) <- c('DupData', 'PK')
    rownames(data1) <- NULL

    rapply(data1,function(x)length(unique(x)), how = 'unlist')
DupData      PK 
      1      10 

length(unique(data1$PK))
[1] 10

接下来是一个包含 3 列的数据框，但需要两列才能进行唯一的观察:

############### Data2 - 3 columns - Two column composite PK
data2 <- data1
data2$PK <- rep_len(1:2, length.out = 10)
data2$PK2 <- rep_len(2:6, length.out = 10)
rapply(data2,function(x)length(unique(x)), how = 'unlist')
DupData      PK     PK2 
      1       2       5 

length(unique(data2$DupData))
[1] 1
length(unique(data2$PK))
[1] 2
length(unique(data2$PK2))
[1] 5
nrow(unique(data2[,c(1,2)], nmax = 3))
[1] 2
nrow(unique(data2[,c(1,3)], nmax = 3))
[1] 5
nrow(unique(data2[,c(2,3)], nmax = 3))
[1] 10

最后，有一个包含 4 列/变量的数据框，需要三列才能进行唯一的观察:

############### Data3 - 4 columns - Three column composite PK
data3 <- data1
data3$PK <- c(0,0,0,0,0,0,0,0,1,1)
data3$PK2 <- c(0,0,1,1,1,2,2,2,0,0)
data3$PK3 <- c(1,2,0,1,2,0,1,2,0,1)
rapply(data3,function(x)length(unique(x)), how = 'unlist')
DupData      PK     PK2     PK3 
      1       2       3       3 

length(unique(data3$DupData))
[1] 1
length(unique(data3$PK))
[1] 2
length(unique(data3$PK2))
[1] 3
length(unique(data3$PK3))
[1] 3
nrow(unique(data3[,c(1,2)], nmax = 4))
[1] 2
nrow(unique(data3[,c(1,3)], nmax = 4))
[1] 3
nrow(unique(data3[,c(1,4)], nmax = 4))
[1] 3
nrow(unique(data3[,c(1:4)], nmax = 4))
[1] 10
nrow(unique(data3[,c(2,3)], nmax = 4))
[1] 4
nrow(unique(data3[,c(2,4)], nmax = 4))
[1] 5
nrow(unique(data3[,c(3,4)], nmax = 4))
[1] 9
nrow(unique(data3[,c(2:4)], nmax = 4))
[1] 10

问题是:是否有一种方法可以以简单、 Eloquent 方式确定哪些列组合起来构成记录的唯一实例，而无需编写无限的 for 循环？

如果没有，在 R 中编写 for 循环的最佳方法是什么，它会告诉您组合的列的每个组合都有一个唯一计数，该计数等于整个数据帧的计数？

希望这比泥泞更清晰，这对某人来说是一个简单的问题。

感谢您的帮助!

最佳答案

不幸的是，没有。有多种方法可以识别主键，无论是单键还是复合键。但是，如果有 10 列，理论上，创建唯一键可能需要 10 列。这意味着您必须检查第一列到第 10 列的唯一性，然后是第 1 列和第 2 列，然后是第 1 列和第 3 列，最后是第 1 列和第 4 列。。。等等。我认为这可以归结为检查n!组合。因此，如果您有 10 列，您可能需要检查 3,628,800 个组合的唯一性。实际上，2-4 列通常是复合键中键的最大数量。不过，这仍然可以通过大量检查来验证。这只是我的意见，但归根结底是建模者了解数据并验证假设。如果您找到更好的答案，请告诉我们，

关于R编程: Identifying Composite Keys，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32865133/

25

4

0

文章推荐： coldfusion - 检查日期是否在两个日期之间

文章推荐： perl - 如果您在标量上下文中计算哈希值，您会得到什么？

文章推荐： spring - 自定义@RequestMapping注解

primary-key - MySQL keys : PRIMARY KEY, FOREIGN KEY, KEY -- "KEY"是什么？
查看“mysqldump -d”并看到一个键是 KEY，而不是“PRIMARY KEY”或“FOREIGN KEY” 什么是关键？示例: CREATE TABLE IF NOT EXISTS `TA
python - 从字典中获取键 : keys() vs 'keys for keys in dict.keys()'
在我开始使用 Python 的过程中尝试找出最佳编码实践。我用 Pandas 写了一个 csv 到数据框阅读器。它使用格式: dataframe = read_csv(csv_input, useco
key - 'MyhomePage({Key key, this.title}) : super(key: key);' in Flutter - what would be a clear explanation with an example?
在 Flutter 中，用一个例子可以清楚地解释什么？我的困惑是关于 key，如下面的代码所示。 MyHomepage({Key key, this.title}) : super(key: key
android - Google API 中的server-key、android-key、browser-key 和iOS key 有什么区别？
我在我的 Android 应用程序中使用 GCM。要使用 GCM 服务，我们需要创建 Google API key 。因此，我为 android、服务器和浏览器 key 创建了 API key 。似乎
azure - 如何在一个 key 中创建具有多个值的 key 保管库 key ？
我想在 azure key 保管库中创建一个 secret ，该 key 将具有多个 key (例如 JSON)。例如- { "storageAccountKey":"XXXXX", "Co
encryption - 指定的 key 不是此加密的有效 key : Key size is not valid. 得到的 key 长度为:15
尝试通过带有 encodeforURL() 的 url 发送 key 时，我不断收到错误消息和 decodefromUrl() .代码示例如下。这是我的入口页面: key = generateSec
key - 检查雪花变体中是否存在 key
是否有检查雪花变体字段中是否存在键的函数？最佳答案您可以使用 IS_NULL_VALUE 来查看 key 是否存在。如果键不存在，则结果将为 NULL。如果键存在，如果值为 JSON null，则
key - 无法从 keys.gnupg.net 添加 key
我正在尝试运行此命令: sudo apt-key adv --keyserver keys.gnupg.net --recv-keys 1C4CBDCDCD2EFD2A 但我收到一个错误: Execu
python - 我该如何放置字典 {key : value} in it's designated key in a dictionary so that it is {key: {key: value}} after counting value
我有一个 csv 文件，我正在尝试对 row[3] 进行计数，然后将其与 row[0] 连接 row[0] row[3] 'A01' 'a' 'B02'
c# - 如何在 C# 中编写一个看起来像 A(key, B(key, C(key, ValFactory(key)))) 的递归函数？
如何编写具有这种形式的函数: A(key, B(key, C(key, ValFactory(key)))) 其中 A、B 和 C 具有此签名: TResult GetOrAdd(string key
javascript - 为什么 Object.keys(this).map(key => (this as any)[key])？
审查 this method我很好奇为什么它使用 Object.keys(this).map(key => (this as any)[key])? 只调用 Object.keys(this).ind
Python: `key not in my_dict` 但 `key in my_dict.keys()`
我有一个奇怪的情况。我有一个字典，self.containing_dict。使用调试器，我看到了字典的内容，并且可以看到 self 是其中的一个键。但是看看这个: >>> self in self.c
google-apps-script - computeRsaSha256Signature() 返回无效参数 : key error when key is public key or rsa private key
我需要在我的 Google Apps 脚本中使用 RSA-SHA256 和公钥签署消息。我正在尝试使用 Utilities.computeRsaSha256Signature(value, key)
reactjs - {...{ key }} 与 key={key} 相同来分配 React 属性吗？
我是 React 的初学者开发人员，几天前我看到了一些我不理解的有趣语法。 View组件上有{...{key}}，我会写成 key={key} ，它完全一样吗？你有链接或解释吗？ render()
sql - 代理 key 、合成 key 和人工 key 之间有区别吗？
代理 key 、合成 key 和人工 key 之间有什么区别吗？我不清楚确切的区别。最佳答案代理键、合成键和人工键是同义词。技术关键是另一个。它们都表示“没有商业意义的主键”。它们不同于具有超出
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
c# - 使用应用程序客户端 key 访问 Azure Key Vault key
问题陈述:在 Web/控制台 C# 应用程序中以编程方式检索并使用存储在 Azure Key Vault 中的敏感值(例如数据库连接字符串)。据我所知，您可以在 AAD 中注册应用，并使用其客户端
Perl:如何获取 key "keys on reference is experimental"上的 key
我正在寻找 Perl 警告的解决方案 “引用键是实验性的” 我从这样的代码中得到这个: foreach my $f (keys($normal{$nuc}{$e})) {#x, y, and z 我在
java - JCE中是否有任何机制来指定 key 生成生命周期( session key 或永久 key )
我正在为 HSM 实现 JCE 提供程序 JCE中有没有机制指定 key 生成类型例如: session key 或永久 key KeyGenerator keygen = KeyGener
android - invalid key hash key 哈希与任何存储的 key 哈希不匹配
我在 Facebook 上创建了一个应用程序。我已经正确添加了 keyhash 并且应用程序运行良好但是当我今天来并尝试再次运行它时它给了我这个错误。这已经是第二次了。 Previsouly 当我收

首页

博学

6Ren·AI

商城

R编程: Identifying Composite Keys