gpt4 book ai didi

从语料库中删除电子邮件 ID

转载 作者:行者123 更新时间:2023-12-02 09:30:12 24 4
gpt4 key购买 nike

我在 R 中有一个矢量语料库。我想删除该语料库中出现的所有电子邮件 ID。电子邮件 ID 可以位于语料库中的任何位置。比如说

1> "Could you mail me the Company policy amendments at xyz@gmail.com. Thank you." 

2> "Please send me an invoice copy at abcdef@yahoo.co.in. Looking forward to your reply".

所以在这里我只想从语料库中删除电子邮件 ID“xyz@gmail.com”和“abcdef@yahoo.co.in”。

我试过使用:

corpus <- tm_map(corpus,removeWords,"\w*gmail.com\b")
corpus <- tm_map(corpus,removeWords,"\w*yahoo.co.in\b")

最佳答案

下面的代码使用正则表达式模式从语料库中删除电子邮件 ID。我从某个地方得到了正则表达式,但我现在不记得它是从哪里来的。我很想注明出处。

# Sample data from which email ids need to be removed

text <- c("Could you mail me the Company policy amendments at xyz@gmail.com. Thank you.",
"Please send me an invoice copy at abcdef@yahoo.co.in. Looking forward to your reply." )


#Function containing regex pattern to remove email id
RemoveEmail <- function(x) {
require(stringr)
str_replace_all(x,"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\\.[a-zA-Z0-9-.]+", "")
}

library(tm)
corpus = Corpus(VectorSource(text)) # Corpus creation
corpus <- tm_map(corpus,content_transformer(RemoveEmail)) # removing email ids

#Printing the corpus
corpus[[1]]$content
corpus[[2]]$content

关于从语料库中删除电子邮件 ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33995830/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com