regex - 使用正则表达式将 URL 提取到新的数据框列中-6ren

regex - 使用正则表达式将 URL 提取到新的数据框列中

转载作者：行者123 更新时间：2023-12-03 15:06:31

24

4

我想使用正则表达式将数据框中文本中的所有 URL 提取到新列中。我有一些旧代码用于提取关键字，因此我希望将代码调整为正则表达式。我想将正则表达式保存为字符串变量并在此处应用:

data$ContentURL <- apply(sapply(regex, grepl, data$Content, fixed=FALSE), 1, function(x) paste(selection[x], collapse=','))

看来 fixed=FALSE应该告诉 grepl它是一个正则表达式，但 R 不喜欢我试图将正则表达式保存为:

regex <- "http.*?1-\\d+,\\d+"

我的数据组织在这样的数据框中:

data <- read.table(text='"Content"     "date"   
 1     "a house a home https://www.foo.com"     "12/31/2013"
 2     "cabin ideas https://www.example.com in the woods"     "5/4/2013"
 3     "motel is a hotel"   "1/4/2013"', header=TRUE)

希望看起来像:

                                           Content       date              ContentURL
1               a house a home https://www.foo.com 12/31/2013     https://www.foo.com
2 cabin ideas https://www.example.com in the woods   5/4/2013 https://www.example.com
3                                 motel is a hotel   1/4/2013

最佳答案

Hadleyverse 解决方案( stringr 包)具有不错的 URL 模式:

library(stringr)

url_pattern <- "http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"

data$ContentURL <- str_extract(data$Content, url_pattern)

data

##                                            Content       date              ContentURL
## 1               a house a home https://www.foo.com 12/31/2013     https://www.foo.com
## 2 cabin ideas https://www.example.com in the woods   5/4/2013 https://www.example.com
## 3                                 motel is a hotel   1/4/2013                    <NA>

您可以使用 str_extract_all如果 Content 中有倍数，但这将涉及您之后的一些额外处理。

关于regex - 使用正则表达式将 URL 提取到新的数据框列中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26496538/

24

4

0

文章推荐： delphi - 我如何检测其他控件何时更改其边界？

文章推荐： unit-testing - 单元测试代码根据今天的日期进行日期处理

文章推荐： haskell - 是否可以使用 Lenses 构建新记录？

c++ - 新的/免费的行为非常奇怪
我遇到了一个奇怪的问题。我的应用程序的 Release 版本似乎运行良好，但最近当我切换到 Debug 版本时，我在启动时立即遇到访问冲突。当释放分配的内存块时，就会发生访问冲突。所有这些都发生在静态
c# - 这个语法是什么意思？新的 { }
我在 C# 中偶然发现了这种奇怪的语法形式，并试图弄清楚它的含义以及如何使用它。网络上似乎没有关于此的任何文档。 object data = new { var1 = someValue, var2
javascript - 新的 CSSStyleDeclaration
我正在尝试使用浏览器的内置类型 CSSStyleDeclaration 以编程方式传递和修改样式(由于 .cssText 属性，这很方便)。但是，new CSSStyleDeclaration()
c# - 新的 is 模式匹配语法可以与现有变量一起使用吗？
我有现成的代码: internal bool firstAsSymbol(out Symbol s) { return (s = first as Symbol) !=
eclipse - 新的 Eclipse 分层包表示部分损坏
在新的 Eclipse 版本 2022-03 中，一些(但不是全部)java 项目在 Project Explorer View 中的外观发生了变化。尽管 Package Presentation 设
javascript - 新的 FormData 返回空对象
我正在尝试使用 FormData 通过获取 API 在 POST 请求中发送用户输入的数据。问题是，当我用我创建的表单创建一个新的 FormData 对象时，它一直在创建一个空对象——没有条目/键/值
assembly - 新的 AVX 指令语法
我有一个用一些 intel-intrinsincs 编写的 C 代码。在我先用 avx 然后用 ssse3 标志编译后，我得到了两个完全不同的汇编代码。例如: AVX: vpunpckhbw %xm
javascript - 新的 Discord 斜线命令
最近，discord 为您自己的应用程序添加了对斜杠命令的支持。我通读了它的文档，并尝试搜索一些视频(但是该功能刚刚出现)，但我不明白我实际上需要做什么才能使其正常工作。我正在使用 WebStorm(
java - 新的 REngine 启动并立即停止
我想使用 JRI 从 Java 调用 R。我在 eclipse 下在主类中运行它: Rengine c = new Rengine(new String[] { "--vanilla" },
android - 新的 Google 地方信息自动填充功能及其定价
我正在使用新的 Place Autocomplete那是来自新的静态Google Places SDK 客户端库 (here)。所以它真的很容易使用，我刚得到this tutorial它按预期工作。
flutter - 新的 flutter 更新强制无效安全？
我刚刚更新到 flutter 版本 1.25.0-5.0.pre.92，我的代码中出现了很多与空安全相关的错误，这些错误以前运行良好。我没有以任何方式选择空安全，我所做的只是运行 flutter 升级
reactjs - 新的 React 应用程序在安装后无法立即编译
我已经使用 React Native 有一段时间了，但我想我会在网络上试用 React。所以我遵循了这个指南:https://reactjs.org/docs/create-a-new-react-a
scala - 新的 dotty 运行时完全死在我身上
周六早上在这里。尝试学习新的 Scala 编译器 dotty。安装在我的 Mac 上使用 brew install lampepfl/brew/dotty 安装成功。我有版本 dotr -versi
android - 新的 Google 地方信息自动填充功能在点击时崩溃
我使用了谷歌地方的新依赖。单击自动完成 View 时应用程序崩溃。错误如下。, java.lang.NullPointerException: Place Fields must be set.
python - 如何在预训练的对象检测模型中添加其他类并对其进行训练以检测所有类(预训练的+新的)？
我关注了这个博客-> https://medium.com/@teyou21/training-your-object-detection-model-on-tensorflow-part-2-e9e
assembly - 新的 X86_64 处理器寄存器的名称是什么？
在哪里可以找到用于在此架构上进行组装的新寄存器的名称？我指的是 X86 中的寄存器，如 EAX、ESP、EBX 等。但我希望它们是 64 位的。我认为它们与我反汇编 C 代码时不同，我得到的是 r
azure - 新的 Azure 服务总线库可以与之前的服务总线库一起使用吗？
新的服务总线库 Azure.Messaging.ServiceBus 使用 ServiceBusReceivedMessage 来接收消息 https://learn.microsoft.com/en
azure - 新的 azure 门户中的广告插入
需要使用实时流媒体 channel 的实时编码类型在新的 Azure 门户中配置广告插入和石板图像。请帮忙解决这个问题，因为我找不到该功能。最佳答案此处描述了 Azure 媒体服务的广告插入选项
github - 新的 GitHub 操作在空文件夹中运行
我正在使用新的 GitHub 操作，下面的工作流程的想法是在打开或同步 pr 时运行，它应该首先检查并安装依赖项，然后运行一些 yarn 脚本 name: PR to Master on: pul
lambda - 新的 lambda 语法是什么？
我听说 DMD 2.058 中将有一个用于匿名函数的新语法，但我找不到任何相关信息。新语法是什么？旧语法是否会被弃用？最佳答案我相信它就像 C#'s . 以下内容是等效的: delegate(i,

首页

博学

6Ren·AI

商城

regex - 使用正则表达式将 URL 提取到新的数据框列中