gpt4 book ai didi

r - 如何使用 r 删除文本文档中没有 http 的 url

转载 作者:行者123 更新时间:2023-12-05 04:03:55 24 4
gpt4 key购买 nike

我正在尝试从一个大文本文件中删除可能以 http/https 开头或不以 http/https 开头的 url,我将其保存在 R 的 urldoc 中。该 url 可能以 tinyurl.com/ydyzzlkk 或 aclj.us/2y6dQKw 或pic.twitter.com/ZH08wej40K。基本上,我想在找到空格后删除“/”之前的数据,并在找到空格之前删除“/”之后的数据。我尝试了很多模式并搜索了很多地方。无法完成任务。如果你能提供一些意见,我会帮助我很多。

这是我最后一次尝试并因上述问题而陷入困境的陈述。urldoc = gsub("?[a-z]+\..\/.[\s]$","", urldoc)

输入将是:他职业的耻辱。 pic.twitter.com/ZH08wej40K 在宗教自由的重大胜利中,管理员。已经剔除机构继续这条道路。 goo.gl/YmNELW 与管理员完全不同。提议:tinyurl.com/ydyzzlkk

我期望的输出是:他职业的耻辱。在宗教自由的重大胜利中,Admin。已经剔除机构继续这条道路。没有什么像管理员。建议:

谢谢。

最佳答案

根据您的规范,您可以使用以下正则表达式:

\s*[^ /]+/[^ /]+

参见 regex demo .

详情

  • \s* - 0 个或多个空白字符
  • [^/]+(或 [^[:space:]/])- 除了空格(或空格)和 之外的任何 1 个或多个字符>/
  • / - 斜杠
  • [^/]+(或 [^[:space:]/])- 除了空格(或空格)和 之外的任何 1 个或多个字符>/

R demo :

urldoc = gsub("\\s*[^ /]+/[^ /]+","", urldoc)

如果您想考虑任何空格,请将文字空格替换为 [:space:],

urldoc = gsub("\\s*[^[:space:]/]+/[^[:space:]/]+","", urldoc)

关于r - 如何使用 r 删除文本文档中没有 http 的 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53071255/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com