gpt4 book ai didi

从句子中删除不相关的字符

转载 作者:行者123 更新时间:2023-12-02 05:43:00 24 4
gpt4 key购买 nike

我有以下句子:

**I**%%AABB%&&**WANT**%%AO%**ONLY**%RA%$**THESE**

我只想提取那些定义相关的词:I, WANT, ONLY, THESE, WORDS, NEXT, STEP。所有其他字符(数字、字母、特殊字符)都应从句子中删除。

在这种情况下,生成的句子将是:

I WANT ONLY THESE.

我有数千行这样的行,每行在有用的单词之间都有自己的一组字符。有没有一种有效的方法可以在 R 中摆脱这些?

最佳答案

string <- "**I**%%AABB%&&**WANT**%%AO%**ONLY**%RA%$**THESE**"
regmatches(string, gregexpr("I|WANT|ONLY|THESE|WORDS|NEXT|STEP",
string))

[[1]]
[1] "I" "WANT" "ONLY" "THESE"

编辑:如果你想再转换回一个句子,假设我将匹配项存储在一个名为 matches 的对象中:

sentencify <- function(sentence){
paste0(paste(sentence, collapse=" "), ".")
}

lapply(matched, sentencify)

[[1]]
[1] "I WANT ONLY THESE."

关于从句子中删除不相关的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16014185/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com