gpt4 book ai didi

r - 计算字符串的一部分的字符

转载 作者:行者123 更新时间:2023-12-04 10:40:38 25 4
gpt4 key购买 nike

我有这个df:

dput(df)
structure(list(URLs = c("http://bursesvp.ro//portal/user/_/Banco_Votorantim_Cartoes/0-7f2f5cb67f1-22918b.html",
"http://46.165.216.78/.CartoesVotorantim/Usuarios/Cadastro/BV6102891782/",
"http://www.chalcedonyhotel.com/images/promoc/premiado.tam.fidelidade/",
"http://bmbt.ro/portal/a3/_Votorantim_/VotorantimCartoes2016/0-7f2f5cb67f1-22928b.html",
"http://voeazul.nl/azul/")), .Names = "URLs", row.names = c(NA,
-5L), class = "data.frame")

它描述了不同的URL,并且我试图计算 主机名的字符数,无论这是实际名称( http://hostname.com/...。)或IP( http://000.000.000.000/..。)。但是,如果它是一个真实的名称,那么我只想要www之间的nchar。和.com。如果是IP,则其所有数字和“在”点之间。

以上示例数据的预期结果:
exp_outcome
1 8
2 13
3 15
4 4
5 7

我试图用 strsplit做点什么,但是什么也做不了。

最佳答案

另一种,也许更直接的方式是使用不同的正则表达式:

nchar(sub("^http://(www\\.)?(([a-z]+)|([0-9.]+))(\\.[a-z]+)?/+.+$", "\\2", x$df))
#[1] 8 13 15 4 7

说明:
  • ^http://:在字符串
  • 开头后查找“http://”
  • (www\\.)?:查找“www。”,零次或一次(因此这是可选的)
  • (([a-z]+)|([0-9.]+)):将捕获的模式:小写字母一个或多个时间或数字和点
  • (\\.[a-z]+)?:查找“。”后面跟一个或多个小写字母,零或一次(因此也是可选的)
  • /+.+$:查找“/”,后跟任何东西,一次或多次,直到字符串
  • 末尾

    注意:
    sub("^http://(www\\.)?(([a-z]+)|([0-9.]+))(\\.[a-z]+)?/+.+$", "\\2", x$df)
    # [1] "bursesvp" "46.165.216.78" "chalcedonyhotel" "bmbt" "voeazul"

    关于r - 计算字符串的一部分的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34770900/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com