gpt4 book ai didi

regex - 基于正则表达式模式从向量中排除元素

转载 作者:行者123 更新时间:2023-12-04 18:09:40 25 4
gpt4 key购买 nike

我有一些数据要使用 R 中的正则表达式进行清理。

很容易找到如何获取包含某些模式或不包含某些单词(字符串)的元素,但我不知道如何排除包含模式的单元格。

我怎么能使用通用函数来只保留那些不包含 PATTERN 的向量中的元素?

我不想举一个例子,因为这可能会导致人们使用其他(虽然通常很好)的方式来回答而不是预期的方式:基于正则表达式排除。无论如何,这里是:

如何排除包含以下任何字符的所有元素:'pyfgcrl

vector <- c("Cecilia", "Cecily", "Cecily's", "Cedric", "Cedric's", "Celebes", 
"Celebes's", "Celeste", "Celeste's", "Celia", "Celia's", "Celina")

在这种情况下,结果将是一个空向量。

最佳答案

编辑:从评论中,经过一些测试,人们会发现我的建议是不正确的。

这里有两个正确的解决方案:

vector[!grepl("['pyfgcrl]", vector)]                    ## kohske
grep("['pyfgcrl]", vector, value = TRUE, invert = TRUE) ## flodel

如果他们中的任何一个想要重新发布并接受他们的回答,我很乐意在这里删除我的。

解释

您正在寻找的一般功能是 grepl .来自 grepl 的帮助文件:

grepl returns a logical vector (match or not for each element of x).



此外,您应该阅读 regex 的帮助页面。它描述了字符类是什么。在本例中,您创建了一个字符类 ['pyfgcrl] , 表示在方括号中查找任何字符。然后你可以用 ! 否定这个.

所以,到目前为止,我们有一些看起来像:
!grepl("['pyfgcrl]", vector)

为了得到你想要的东西,你像往常一样子集。
vector[!grepl("['pyfgcrl]", vector)]

对于@flodel 提供的第二种解决方案, grep默认返回匹配的位置, value = TRUE参数让您返回实际的字符串值。 invert = TRUE表示返回不匹配的值。

关于regex - 基于正则表达式模式从向量中排除元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17511548/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com