gpt4 book ai didi

R RecordLinkage 标识

转载 作者:行者123 更新时间:2023-12-04 06:34:11 28 4
gpt4 key购买 nike

我正在 R 中使用 RecordLinkage 库。
我有一个包含 ID、姓名、电话、邮件的数据框

我的代码如下所示:

ids = data$id
pairs = compare.dedup(data, identity=ids, blockfld=as.list(2,3,4))

问题是我的 id 在我的结果输出中不一样
所以如果我有这个数据:
id   Name     Phone    Mail
233 Nathali 2222 nathali@dd.com
435 Nathali 2222
553 Jean 3444 jean@dd.com

在我的结果输出中,我会有类似的东西
id1 id2
1 2

代替
id1 id2
233 435

我想知道是否有办法保留 id 而不是索引,或者有人可以向我解释身份参数。

谢谢

最佳答案

身份向量告诉 getPairs 方法哪些输入记录属于同一实体。它实际上保存了您通常希望从记录链接中获得的信息,即您有几个记录并且事先不知道其中哪些属于一起。但是,当您使用训练集校准方法或想要评估记录链接方法的准确性时(该包主要是为此目的编写的),您可以从已删除重复数据或链接的数据集开始。

在您的示例中,前两行(ID 233、435)显然表示同一个人,而第三行表示不同的人。因此,一个有意义的身份向量是:

c(1,1,2)

但也可能是:
c(42,42,128)

只需确保标识向量在相应表行保存匹配记录的位置(向量索引 = 行索引)具有完全相同的值。

关于如何在结果中显示 id 的问题:您可以获得完整的记录对,包括所有数据字段(有关更多详细信息,请参阅文档):
getPairs(pairs)

可能有更好的方法来获取原始 ID,具体取决于您如何进一步处理记录对(例如运行分类算法)。如果您需要更多建议,请扩展您的示例。

ps:我是包作者之一。我直到最近才意识到人们在 Stack Overflow 上询问有关包的问题,​​所以请原谅几个问题已经存在很长时间了。我将寻找一种方法来就此处发布的新问题获得通知,但我还要提一下,人们可以通过包裹信息中列出的电子邮件地址之一直接与我们联系。

关于R RecordLinkage 标识,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36042584/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com