gpt4 book ai didi

r - 从相似字符串的向量中获取唯一字符串

转载 作者:行者123 更新时间:2023-12-01 00:58:42 26 4
gpt4 key购买 nike

我不太知道如何表达这个问题。我刚刚开始处理一堆推文,我已经做了一些基本的清理工作,现在一些推文看起来像:

x <- c("stackoverflow is a great site",
"stackoverflow is a great si",
"stackoverflow is a great",
"omg it is friday and so sunny",
"omg it is friday and so",
"arggh how annoying")

基本上我想通过检查字符串的第一部分是否匹配并返回其中最长的部分来删除重复。在这种情况下,我的结果应该是:
[1]"stackoverflow is a great site"
[2]"omg it is friday and so sunny"
[3]"arggh how annoying"

因为所有其他人都是上述内容的截断重复。我试过使用 unique()函数,但它不返回我想要的结果,因为它试图匹配字符串的整个长度。请问有什么指点吗?

我在 Mac OSX 10.7 上使用 R 版本 3.1.1 ...

谢谢!

最佳答案

这是另一种选择。我在您的示例数据中添加了一个字符串。

x <- c("stackoverflow is a great site",
"stackoverflow is a great si",
"stackoverflow is a great",
"stackoverflow is an OK site",
"omg it is friday and so sunny",
"omg it is friday and so",
"arggh how annoying")

Filter(function(y) {
x2 <- sapply(setdiff(x, y), substr, start=1, stop=nchar(y))
! duplicated(c(y, x2), fromLast=TRUE)[1]
}, x)


# [1] "stackoverflow is a great site" "stackoverflow is an OK site" "omg it is friday and so sunny" [4] "arggh how annoying"

关于r - 从相似字符串的向量中获取唯一字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25447296/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com