regex - R:跨两个数据帧的名字和姓氏组合(即两列)的不区分大小写匹配-6ren

regex - R:跨两个数据帧的名字和姓氏组合(即两列)的不区分大小写匹配

转载作者：行者123 更新时间：2023-12-01 05:08:16

24

4

在 R 中，我想提取完成了我设计的两个版本的测试并随后分两个阶段进行管理的人(我要求参与者提供他们的名字和姓氏)。

问题是 1. 人们在使用大写字母方面并不一致； 2. 有些人可能与其他人共享名字或姓氏。因此， 1. 我需要一个不区分大小写的搜索； 2.我想提取一个新的数据框，列出第一个版本的名字和姓氏，以及第二个版本的名字和姓氏，以验证匹配(也因为有人可能使用“Tom”在一种情况下，在另一种情况下是“Thomas”):

df1 <- data.frame(firstName = c("John", "Josef", "Tom", "Huckleberry", "Johann"),
                  lastName = c("Doe", "K", "Sawyer", "Finn", "Bach"))

df2 <- data.frame(firstName = c("John", "josef", "Thomas", "Huck", "Pap", "Johann Sebastian", "Johann"),
                  lastName = c("Doe", "K", "Sawyer", "Finn", "Finn", "Bach", "Pachelbel"))

以上名称都应该为我提供一个匹配项来验证:

repeatDF <- data.frame(firstName.1 = c("John", "Josef", "Tom", "Huckleberry", "Huckleberry", "Johann", "Johann"),
                       lastName.1 = c("Doe", "K", "Sawyer", "Finn", "Finn", "Bach", "Bach"),
                       firstName.2 = c("John", "josef", "Thomas", "Huck", "Pap", "Johann Sebastian", "Johann"),
                       lastName.2 = c("Doe", "K", "Sawyer", "Finn", "Finn", "Bach", "Pachelbel"))

然后我(可能手动？)批准除“Johann Pachelbel”和“Pap Finn”之外的所有内容，因为它们可能在名称上匹配，但与他们匹配的人不是同一个人。

到目前为止，我已经尝试过 merge (另见 match two data.frames based on multiple columns )和 %in% ，但是这两种方法都区分大小写，并且会丢失一些匹配项。我无法获得 apply使用 grep 工作的函数(必须承认:对这些功能都不是很流利)，但也不知道如何使用 grep 来考虑名字和姓氏?我是在寻找正确的方向，还是应该使用完全不同的功能？

任何帮助将非常感激!

PS。似乎有很多很多类似的问题，但要么是针对不同的程序，要么不需要我的两个考虑——如果我的问题确实已经有了答案，请道歉!

最佳答案

这似乎基于 OP 的评论和新数据集。我改了df2稍微所以名称在两个数据框中的顺序不同。

df1 <- data.frame(firstName = c("John", "Josef", "Tom", "Huckleberry", "Johann"),
                 lastName = c("Doe", "K", "Sawyer", "Finn", "Bach"))

df2 <- data.frame(firstName = c("John", "josef", "Huck", "Pap", "Johann Sebastian", "Johann", "Thomas"),
                  lastName = c("Doe", "K", "Finn", "Finn", "Bach", "Pachelbel", "Sawyer"))
get.match <- function(A,B) {
  A <- as.list(tolower(A)); B <- as.list(tolower(B))
  match.last  <- grepl(A$lastName,B$lastName)|grepl(B$lastName,A$lastName)
  match.first <- grepl(A$firstName,B$firstName)|grepl(B$firstName,A$firstName)
  match.first | match.last
} 

indx    <- apply(df2,1,function(row) apply(df1,1,get.match,row))
indx
#       [,1]  [,2]  [,3]  [,4]  [,5]  [,6]  [,7]
# [1,]  TRUE FALSE FALSE FALSE FALSE FALSE FALSE
# [2,] FALSE  TRUE FALSE FALSE FALSE FALSE FALSE
# [3,] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE
# [4,] FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE
# [5,] FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE

m.1     <- df1[rep(1:nrow(df1),apply(indx,1,sum)),]
result  <- cbind(m.1,do.call(rbind,apply(indx,1,function(i)df2[i,])))
result
#       firstName lastName        firstName  lastName
# 1          John      Doe             John       Doe
# 2         Josef        K            josef         K
# 3           Tom   Sawyer           Thomas    Sawyer
# 4   Huckleberry     Finn             Huck      Finn
# 4.1 Huckleberry     Finn              Pap      Finn
# 5        Johann     Bach Johann Sebastian      Bach
# 5.1      Johann     Bach           Johann Pachelbel

所以这使用了 get.match(...) 中实现的算法比较 df1 的行到 df2 的一行并返回 TRUE如果任一行中的名字出现在另一行的名字中，或者任一行中的姓氏出现在另一行的姓氏中。该行:

indx    <- apply(df2,1,function(row) apply(df1,1,get.match,row))

然后创建一个 indx矩阵，其中行表示 df1 中的行并且这些列代表 df2 的行元素是 TRUE如果 df1 的对应行和 df2匹配。这允许在 df1 中进行多个匹配的可能性。或 df2 .最后我们转换这个 indx矩阵到 result你想使用:

m.1     <- df1[rep(1:nrow(df1),apply(indx,1,sum)),]
result  <- cbind(m.1,do.call(rbind,apply(indx,1,function(i)df2[i,])))

此代码提取 df1 的所有行在 df2 中有匹配项，然后将其绑定(bind)到 df2 中的相应行.

关于regex - R:跨两个数据帧的名字和姓氏组合(即两列)的不区分大小写匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26864950/

24

4

0

文章推荐： java - 让 Broadleaf 在单元测试中运行

文章推荐： Python 重新转换为相同数据类型的时间

文章推荐： python Pandas : groupby apply function looks at prior rows

文章推荐： android - 删除自定义操作栏中的额外空间

c - 大小写
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用，以及预
忽略 CSS 大小写
出于某种原因，右栏中的精选文章忽略了“#elementtext”和“#elementtext:hover”属性。仅显示“p.element”和“img.element”。有什么想法吗？谢谢 - 塔
python - 多个枚举值的开关/大小写
我有两个值，每个值都来自不同的枚举。我想检查这两者的允许组合，如果没有找到则执行默认操作。我能以某种方式对这两个值进行切换/大小写吗？我想避免使用多个 if/else 语句或遵循位掩码模式的枚举，只是
javascript - 如何制作 `where not` 大小写？
我需要 where 但 not 大小写。例如，我想找到没有名字“莎士比亚”的戏剧: _.where(listOfPlays, {author: !"Shakespeare", year: 1611})
SQLITE 更新、限制、大小写
我想实现一个 parking 场应用所以有一个带5个或更多 parking 位的车库当司机 parking 时，车库中的下一个空闲位置应该分配给他。所以我有一个带 5 个或更多插槽的 table 上
Erlang 切换(大小写)整除性
我想使用 Erlang 来确定传递给函数的变量是否可以被数字整除。我考虑过使用 case 来执行此操作，但是我找不到解决方案。 case 是适合这项工作的工具吗？示例:将数字传递给函数 f()。如果
php - 将表中的列名称显示为 Pascal 大小写
我在 phpmyadmin 中创建了一个表，其列名如 first_name、last_name。当我使用命令显示表中的列名时，它会将它们显示为 first_name。我想显示我的列名称，如 Firs
swift - 将字符串格式化为 Pascal 大小写
使用 Swift 4，如何使用这些规则格式化字符串: 如果单词超过 3 个字母，则首字母大写，否则大写包含像 St-Michel 这样的连字符的 Pascal 大小写单词我这里有初稿，但我一直在思
C++ 带字符串参数的 Switch 大小写
这个问题在这里已经有了答案: Why can't the switch statement be applied to strings? (23 个回答) 关闭 8 年前。大家好所以我正在尝试对
html - 获取具有相同名称的多个表单值( bool 大小写)
在 MVC 操作中，我如何访问使用多个同名值提交的“表单数据”中的值？我做了什么:int、decimal、string 类型的值工作完美。问题:每个变体都有一个复选框，所以当我尝试获取它时，它只显
c - 有没有办法检查数组中字符串的大写和 isalpha 大小写？
while(1) { char buff[1000]; printf("Enter the word: "); fgets(buff, 1000
c - DllMain 中没有中断的开关/大小写
我有一个 Dllmain，它在线程附加到此 DLL 时分配线程本地存储。代码如下: BOOL APIENTRY DllMain(HMODULE hModule,
c# - 如何将文本转换为 Pascal 大小写？
我有一个变量名，比如“WARD_VS_VITAL_SIGNS”，我想将它转换为 Pascal 大小写格式:“WardVsVitalSigns” WARD_VS_VITAL_SIGNS -> WardV
swift - SKAudioNode else/if off/on 大小写
我是 Swift 编码的新手，正在尝试弄清楚如何在触摸节点时制作具有开/关功能的循环音频。我认为实现它的最佳方式是通过 SKAudioNode，但我不确定我在以下代码中做错了什么。当在节点上按下时 -
带有类的枚举上的 Swift Switch 大小写
这是我第一次使用这种枚举，具有关联值类型的枚举，我需要根据对象的类型制作一个 switch 语句，我无法做到，这是枚举: enum TypeEnum { case foo(FooClass)
c# - 将字符串中的字符替换为行中下一个的大写字母(Pascal 大小写)
我想从字符串中删除所有下划线，下划线后面的字符为大写。因此，例如:_my_string_ 变为:MyString 同样:my_string 变为 MyString 有没有更简单的方法呢？我目前有以下内
java - 在Java中将字符串从蛇大小写转换为 Camel 大小写
如何在 Java 中将蛇形大小写转换为 Camel 形大小写？输入:“input_in_snake_case” 输出:“InputInSnakeCase” 最佳答案 Guava通过其CaseForm
thinkphp 表名大小写窍门
我们有一个表auth_group_access，那么如何使用呢？在使用M方法时，对于带下划线的表名，可以采用如下方法。 M('AuthGroupAccess'); 对应sql语句SQL: S
dictionary - 使用字典键和值的 Python 匹配/大小写
我正在制作一个 pygame 游戏，每当我运行我的代码时，我都会收到错误 expected ':'。我知道在 match/case block 中使用 [ 和 ] 用于其他用途，但我该如何解决这个问题
regex - Notepad++ 正则表达式用于降低 URL 大小写
有人能告诉我是否可以使用正则表达式将 url 转换为小写？这是在 html img 标签内，所以我们可以通过标签找到网址。这是我所拥有的一个例子我需要在最后小写图像名称。该文档包含更多 H

首页

博学

6Ren·AI

商城

regex - R:跨两个数据帧的名字和姓氏组合(即两列)的不区分大小写匹配