gpt4 book ai didi

regex - 删除R中URL字符串的结尾

转载 作者:行者123 更新时间:2023-12-04 17:10:39 26 4
gpt4 key购买 nike

我正在尝试从R中的URL列表中清除和删除目录

是)我有的:

http://domain.com/123
http://www.sub.domain1.com/222
http://www.domain2.com/1233/abc

我想要的是:
domain.com
sub.domain1.com
domain2.com

我清理网址的开头还有很长的路要走
url <- c("http://domain.com/123", "http://www.sub.domain1.com/222","http://www.domain2.com/1233/abc"

cleanurl <- gsub("http://","",url)
cleanurl2 <- gsub("www.","",cleanurl)

(请让我知道是否还有一种更简单的方法来清除http://和www.。)

现在,我在使用正则表达式时遇到了问题,并删除了 /之后的所有内容。
我已经试过了
cleanurl3 <- gsub("/*","",cleanurl2)

但这只是删除 /,而不是其后的所有内容。

在此先感谢您的帮助!

最佳答案

我正在使用strsplit/gsub组合方法(不仅是gsub b/c,有时它很容易找出strsplit,因为它非常直观):

x <- readLines(n=3)
http://domain.com/123
http://www.sub.domain1.com/222
http://www.domain2.com/1233/abc

gsub("www.", "", sapply(strsplit(x, "//|/"), "[", 2))

## > gsub("www.", "", sapply(strsplit(x, "//|/"), "[", 2))
## [1] "domain.com" "sub.domain1.com" "domain2.com"

编辑
或者,如果您只想使用 strsplit(根据Matthew的建议):
sapply(strsplit(x, "(//|/)(www[.])?"), "[", 2)

关于regex - 删除R中URL字符串的结尾,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15603126/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com