gpt4 book ai didi

r - 检查一个字符串的所有字符是否存在于 r 中的另一个字符串中

转载 作者:行者123 更新时间:2023-12-01 13:57:11 29 4
gpt4 key购买 nike

我正在尝试比较 PRABHAKAR SHARMASHARMA KUMAR PRABHAKAR 等字符串。目的是检查较短字符串的所有字符是否存在于另一个字符串中。如果是这种情况,我应该得到 100% 匹配,否则会得到表示匹配字符百分比的百分比。

我尝试在 RecordLinkage 包中使用 levenshteinSim,但它给出的数字对应于将一个字符串更改为另一个字符串所需的更改次数。

install.packages("RecordLinkage")
require(RecordLinkage)
levenshteinSim("PRABHAKAR SHARMA","SHARMA KUMAR PRABHAKAR")

#[1] 0.3636364

在这种情况下,我希望 100% 匹配。此外,这必须复制超过 1,000,000 条记录。

最佳答案

这是一种方法

s1 <- "PRABHAKAR SHARMA"
s2 <- "SHARMA KUMAR PRABHAKAR"

compare <- function(s1, s2) {
c1 <- unique(strsplit(s1, "")[[1]])
c2 <- unique(strsplit(s2, "")[[1]])
length(intersect(c1,c2))/length(c1)
}

compare(s1,s2)
#1

不过,它可能有点慢。并且它也将空格字符视为字符。使用 Vectorize 应用于列:

dat <- data.frame(small=c("a", "b"), big=c("aa", "cc"), stringsAsFactors=FALSE)
vcomp <- Vectorize(compare)
dat <- transform(dat, comp=vcomp(small, big))

关于r - 检查一个字符串的所有字符是否存在于 r 中的另一个字符串中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36085290/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com