r - 不完美的字符串匹配-6ren

r - 不完美的字符串匹配

转载作者：行者123 更新时间：2023-12-04 10:29:06

24

4

假设我有两列名称。第一列中的所有名称都在第二列中，但顺序是随机的，并且其中一些不是完全匹配的。所以也许在一栏中有约翰史密斯的名字，在第二栏中有约翰史密斯或乔恩史密斯。是否有任何相当简单的 R 方法来执行“最佳匹配”？

最佳答案

给定一些这样的数据:

df<-data.frame(x=c('john doe','john smith','sally struthers'),y=c('John Smith','John_smith','JonSmith'))

你可以用几个 gsub走很长的路s 和 tolower :

df$y.fix <- gsub('[[:punct:]]', ' ', df$y)
df$y.fix <- gsub(' ', '', df$y.fix)
df$y.fix <- tolower(df$y.fix)
df$x.fix <- tolower(gsub(' ', '', df$x))

然后 agrep是你想要的:

> agrep(df$x.fix[2], df$y.fix)
[1] 1 2 3

有关更复杂的混淆字符串，请参阅 this post from last week .

关于r - 不完美的字符串匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9196485/

24

4

0

文章推荐： .net - Scala 和 .NET - 运行良好吗？一些经验？事态

文章推荐： r - 将参数强制转换为最简单的类型

文章推荐： perl - 来自 "bleached"文件的 perl 行有什么作用？

文章推荐： unicode - 在 Emacs 中突出显示和替换不可打印的 unicode 字符

c - 完美/理想的哈希来隔离字谜
为了加速测试字谜字符串的快速输出行为，我 came up with基于质数的哈希方案——尽管它看起来像 I wasn't the first . 基本思想是将字母映射到素数，并计算这些素数的乘积。字母
swift - swift服务器中的同步或异步(完美)
我使用 Perfect Framework 创建了一个 Swift 3.0 服务器。一切都按预期进行得很好，但我正在尝试了解是否有更好的方法来做一些事情。来自 iOS 背景，我知道总是在不同的线程中
css - *完美*垂直图像对齐
我有一个固定大小的正方形 div，希望使用 CSS 在其中放置任意大小的图像，以便它在水平和垂直方向上都居中。横向很容易: .container { text-align: center } 对于垂直
十分钟配置“完美”终端
程序员离不开终端，配置一个好看又好用的终端，可以提高工作效率. 本篇文章记录了使用 Oh My Zsh + PowerLevel9k + zsh插件快速配置Ubuntu下默认终端的过程. 我们在
swift - 完美，快速，从处理程序中的请求获取服务器地址
在请求处理程序中，处理例如获取 https://example.com/collections/1或 POSThttp://0.0.0.0:8080/collections 如何获取服务器地址 htt
swift - 完美+SQLiteStORM，如何多次插入
我正在使用 perfect 和 SQLite司机和StORM作为连接器。我可以一一保存(创建)多行。为了使其更快，我想一次创建多行，我该怎么做？最佳答案从完美的 SQLite-StORM 和 Pe
vb.net - 在表单上居中(完美)动态创建的按钮？
这是我在这里的第一篇文章，所以我希望我提供所有正确的信息。我目前正在开发一个简单的菜单应用程序，它有一个按钮控制数组(使用 MSDN 建议的控制数组的变通方法)，我很难重新调整表单大小和将按钮居中。
Androidplot:将填充/边距设置为(完美)容纳轴标签
在 androidplot XYPlot 中，如果您有较大的值(许多数字)和/或较大的字体大小，则 Y 轴上的刻度标签会被剪裁。这个(以及 X 轴上的类似问题)之前已经在这些问题中讨论过: Range
c - 如何使用平方根优化c中的循环(完美、丰富、不足)
注意:我遗漏了不相关的代码所以我目前正在研究 CCC 1996 P1，这个问题的全部目的是能够计算一个整数输入是完美数、不足数还是充数。我上面列出的代码可以工作，但是我认为它太慢了。该代码会迭代每个
algorithm - 31 位双射(完美)哈希算法
我需要什么我需要一个产生双射输出的算法。我有一个 31 位输入，需要一个伪随机 31 位输出。我考虑过的 CRC 在其位宽内是双射的。我查看了 Google 并找到了多项式，但找不到表格或算法。
swift - 完美 swift : Can't compile PerfectCrypto
我在 Ubuntu 14.04.1、clang-3.8 上使用 PerfectSwift我使用的是 Perfect，一切正常，但现在，我不能再编译了(但它可以在我的 mac 上编译) 错误日志是 /h
C#中efcore-ShardingCore呈现“完美”分表
如果您对分表有以下痛点那么不妨试试我这边开源的框架sharding-core ，是否需要无感知使用分表组件，是否需要支持abp，是否需要支持自定义分表规则，是否需要支持自定义分表键，是否需要支持特定
probability - 完美 32 位 crc 的预期冲突
我正在尝试确定我的 crc 与“ 理想 ”32 位 crc 的比较。因此，我运行我的 crc 超过 100 万个完全随机的数据样本并收集了碰撞数量，我想将此数字与我可以从“ 理想 ”crc 中预期的
javascript - 完美 URL 检查 MOST URL 的正则表达式
我正在开发一个项目，需要验证我的 URL，并偶然发现了以下正则表达式模式； /(((http|ftp|https):\/{2})+(([0-9a-z_-]+\.)+(aero|asia|biz|cat
python - 一个*完美*的 Python 调试器应该具备哪些特性？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 4 年前。 Improve
css - 屏幕分辨率。全屏 - 完美。普通屏幕 - 不完美
我正在创建一个需要居中于中间的圆形网站。背景由围绕中心图像的圆圈组成。每当我以全屏(F11 快捷键)查看我的网站时，无论我的屏幕分辨率如何，它都完美居中。如果我在没有全屏显示的情况下查看我的网站，我
html - 在开发人员工具中测试响应能力时，网站 react 完美，但不是以实际手机屏幕为中心？
所以我有一个网站，在开发人员工具中测试响应能力时看起来很棒，但在 iPhone 本身上实际测试时却没有居中并且看起来有些破烂。什么会导致这种情况，如果我无法使用 iPhone(在我的 android
java - 导入 -> 'cannot find symbol' |完全合格的名称 -> 完美
我有一个内部类，它扩展了 AbstractTableModel。 import javax.swing.table.AbstractTableModel; public class MyClass e
linux - 完美/快速编译在 OSX 中工作，在 Linux 中失败
所以我正在使用 Perfect 服务器开发一个将值返回给客户端的应用程序。目前，它需要从另一个 API 下载一些数据，对其进行处理，然后将其发送给客户端。然而，出于某种原因，它在 OSX 中编译良好
jquery - CSS 按钮在 Firefox 中工作(接近)完美，在 IE 和 Chrome 中崩溃和燃烧
我有一些 CSS 按钮。 “按钮”效果是通过在 anchor 标记中使用固定大小的元素来完成的，并且 css 规则以 a span:active 、 a span:hover 的形式显示按钮状态。

首页

博学

6Ren·AI

商城

r - 不完美的字符串匹配