gpt4 book ai didi

r - TM 包中删除 URLS 的 gsub 函数不会删除整个字符串

转载 作者:行者123 更新时间:2023-12-01 22:19:39 24 4
gpt4 key购买 nike

我在使用 r 文本挖掘包 (tm) 的脚本中使用此函数来消除推文中的 URL。令我吃惊的是,清理后有一些残留的“http”字样以及 URL 本身的片段(例如 t.co)。看起来有些 URLS 已完全删除,而另一些只是分解成组件。可能是什么原因?注意:我把 .在 t.co 网址中。 StackOverflow 不允许向 t.co 地址提交 URL。

toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "/")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "@")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "\\|")
removeURL <- function(x) gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, removeURL)

清洗前的文字

今天投票!前往 https://tco/KPQ5EY9VwQ 查找您的投票地点。我们要让美国再次伟大!... https://tco/KPQ5EY9VwQ

清洗后的文字

今天投票去 https tco mxraxyntjy 找到投票地点让美国变得伟大 https tco kpqeyvwq

最佳答案

您正在删除您的 removeURL 函数正在寻找的符号。此外,您需要确保使用 content_transformer() 创建适当的转换器函数。这是一个使用不同正则表达式删除 URL 的工作示例(它在空格处停止)

library(tm)
test<-"VOTE TODAY! Go to https://t.com/KPQ5EY9VwQ to find your polling location. We are going to Make America Great Again!… https://t.com/KPQ5EY9VwQ"

trumpcorpus1020to1109 <- VCorpus(VectorSource(test))
removeURL <- content_transformer(function(x) gsub("(f|ht)tp(s?)://\\S+", "", x, perl=T))
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, removeURL)
toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "/")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "@")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "\\|")
content(trumpcorpus1020to1109[[1]])
# [1] "VOTE TODAY! Go to to find your polling location. We are going to Make America Great Again!… "

关于r - TM 包中删除 URLS 的 gsub 函数不会删除整个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41109773/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com