gpt4 book ai didi

r - 如何提取特定关键字前后的所有数字?

转载 作者:行者123 更新时间:2023-12-04 09:15:16 25 4
gpt4 key购买 nike

我是 R 的新手,过去 2 个月一直在这个网站上尝试了解更多信息。我想从具有特定关键字的数据集中提取信息,然后从具有该关键字的数据集中提取信息,我想提取该关键字前后的 5 个单词。然后我想知道在同一句话中他们附近有什么数字。
为了解释“为什么”,我有一个门票列表,我想拉出门票的所有标题。然后我想从那些请求额外存储的票据列表中知道。如果是,我想知道他们要求多少存储,然后我将根据他们要求的存储量创建操作(但那是以后)。
到目前为止我已经完成的代码示例(它有点困惑,我仍在研究更好/更干净的方式,我对 R 很陌生)。
我要搜索的关键词:存储
数据帧引用为:DF、DF2、DF3 等。
来自 DF 的列:标题

#Check for keyword#
grep("storage", DF$Title, ignore.case=true)

#Pull words before and after keywords, this is case sensitive for some reason so I have to do it twice and merge the data frames, it also creates a list instead of a data frame so I have to change that into a data frame...Messy I know#
DF2 <- stringr::str_extract_all(DF$Title, "([^\\s]+\\s){0,5}Storage(\\s[^\\s]+){0,5}")

#Turn list into dataframe#
DF3 <- do.call(rbind.data.frame, DF2)

#Pull words before and after but in lower case, same as step two#
DF4 <- stringr::str_extract_all(DF$Title, "([^\\s]+\\s){0,5}storage(\\s[^\\s]+){0,5}")

#Turn list into dataframe#
DF5 <- do.call(rbind.data.frame, DF4)

#Change column names ( I have to do this to merge them via rbind)
DF6 <- setnames(DF3, c("Keyword")
DF7 <- setnames(DF5, c("Keyword")

#Merge both data frames together#
DF6 <- rbind(DF6,Df7)
我想检查请求的存储量,所以我试图寻找一个引用 GB 或 TB 等的数字。我尝试了很多代码,但很多只是在关键字之后提取数字或数字,而不是全部句子中的数字。
我尝试过的示例不起作用
DFTest <- as.integer(str_match(DF6, "(?i\\bGB:?\\s*(\\d+")[,2])

最佳答案

以下方法将提取特定关键字之前(在这种情况下我使用 AND)或关键字之后的所有数字。您可以在 中更改您的关键字正则表达式 图案。

library(tidyverse)

df <- data.frame(obs = 1:5, COL_D = c("2019AND", "AND1999", "101AND", "AND12", "20AND1999999"))

df2 <- df %>%
mutate(Extracted_Num = str_extract_all(COL_D, regex("\\d+(?=AND)|(?<=AND)\\d+")))

# obs COL_D Extracted_Num
# 1 1 2019AND 2019
# 2 2 AND1999 1999
# 3 3 101AND 101
# 4 4 AND12 12
# 5 5 20AND1999999 20, 1999999

关于r - 如何提取特定关键字前后的所有数字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63253346/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com