gpt4 book ai didi

r - 需要使用 R 从字符串列中提取单个字符

转载 作者:行者123 更新时间:2023-12-04 14:43:51 25 4
gpt4 key购买 nike

背景

下面是我的 gamedata 数据集,以 dput 形式呈现——它包含一些 MLB 比赛的线得分。

structure(list(team = c("NYM", "NYM", "BOS", "NYM", "BOS"), linescore = c("010000000", 
"(10)1140006x", "002200010", "00000(11)01x", "311200"), ondate = structure(c(18475,
18476, 18487, 18489, 18494), class = "Date")), class = "data.frame", row.names = c(NA,
-5L))

例如,这里是一个行分数:“002200010”。

有些行分数以“x”结尾,有些在括号中包含两位数,如“00000(11)01x”。括号中没有的每个数字表示球队在该局中得分的次数。如果一支球队在一局中得分超过 9 分,则数字放在括号中,因此在“00000(11)01x”这一行得分中,该球队在第六局得分 11 分,并且没有在底部击球。第九个(用“x”表示)。

并非每个线得分都​​有九局。有些有更多,有些只有六个。

我需要做什么

首先,我需要做的是获取一支球队在每局比赛中得分多少,例如,第一局,第二局,第三局,等等,然后将每局在新列中得分。我更喜欢使用 dplyr 的解决方案。

我查看了 stackoverflow 的建议解决方案,但没有找到符合我需要的解决方案。如果有的话,如果你能分享它的网址,我将不胜感激。

我已尝试使用此代码:

gamedata %>%
select(ondate, team, linescore) %>%
mutate(inng1 = str_extract(linescore, "\\d|\\(\\d{2}\\)"))

这是输出:

ondate      team linescore    inng1
2020-08-01 NYM 010000000 0
2020-08-02 NYM (10)1140006x (10)
2020-08-13 BOS 002200010 0
2020-08-15 NYM 00000(11)01x 0
2020-08-20 BOS 311200 3

第二,如何去掉inng1列中'10'的括号?

下面的代码产生了它下面的错误:

gamedata %>%
select(ondate, team, linescore) %>%
mutate(inng1 = str_extract(linescore, "\\d|\\(\\d{2}\\)"))
str_remove_all(inng1,"[()]")

这是我收到的错误消息:

"Error in stri_replace_all_regex(string, pattern, fix_replacement(replacement), : object 'inng1' not found"

第三,我需要知道如何提取每一局的得分,从第二局开始,将每个值放在自己的列中,例如 inng2、inng3 等等。

最后,我应该有上面显示的输出(每个两位数的局都没有括号),每个局都有一个列,所以会有一个标题为“inng1”、“inng2”、“inng3”、“inng4",以此类推。局列中的数据需要是数字,稍后我将对其进行求和。

最佳答案

解决方案02

这是您可以用于这个问题的另一种解决方案,它比第一个更有效,并且主要基于 purrr 系列函数:

library(dplyr)
library(purrr)

df %>%
bind_cols(
map(df %>% select(linescore), ~ strsplit(.x, "\\(|\\)")) %>%
flatten() %>%
map_dfr(~ map(.x, ~ if(nchar(.x) > 2) strsplit(.x, "")[[1]] else .x) %>%
reduce(~ c(.x, .y)) %>%
keep(~ nchar(.x) != 0) %>% t() %>%
as_tibble() %>%
set_names(~ paste0("inng", 1:length(.x)))) %>%
mutate(across(everything(), ~ replace(.x, .x == "x", NA_character_)),
count_inng = pmap_dbl(cur_data(), ~ sum(!is.na(c(...)))),
sums_inng = pmap_dbl(select(cur_data(), starts_with("inng")),
~ sum(as.numeric(c(...)), na.rm = TRUE)))
)

team linescore ondate inng1 inng2 inng3 inng4 inng5 inng6 inng7 inng8 inng9 count_inng
1 NYM 010000000 2020-08-01 0 1 0 0 0 0 0 0 0 9
2 NYM (10)1140006x 2020-08-02 10 1 1 4 0 0 0 6 <NA> 8
3 BOS 002200010 2020-08-13 0 0 2 2 0 0 0 1 0 9
4 NYM 00000(11)01x 2020-08-15 0 0 0 0 0 11 0 1 <NA> 8
5 BOS 311200 2020-08-20 3 1 1 2 0 0 <NA> <NA> <NA> 6
sums_inng
1 1
2 22
3 5
4 12
5 7

解决方案01

我对我的解决方案进行了一些修改,因为它错误地替换了输出向量中的两位数,我认为它已经修复。我认为这个解决方案可能会对您有所帮助。为此,我决定编写一个自定义函数来检测两位数并修剪分数的输出:

library(dplyr)
library(stringr)
library(tidyr)
library(purrr)

fn <- function(x) {
out <- c()
if(str_detect(x, "\\((\\d){2}\\)")) {
double <- str_replace_all(str_extract(x, "\\((\\d){2}\\)"), "[)()]", "")
ind <- str_locate(x, "\\(")
x <- str_remove(x, "\\((\\d){2}\\)")
out <- c(out, str_split(x, "")[[1]])
out[(ind[1, 1]+1):(length(out)+1)] <- out[(ind[1, 1]):length(out)]
out[ind] <- double
} else {
out <- c(out, str_split(x, "")[[1]])
}
if(any(grepl(")", out))) {
out <- out[-which(out == ")")]
}
out
}

# Test
fn("(10)1140006x)")
[1] "10" "1" "1" "4" "0" "0" "0" "6" "x"

然后我们以逐行操作将其应用于我们的数据集:

df %>%
mutate(linescore = map(linescore, fn)) %>%
unnest_wider(linescore) %>%
rename_with(~ gsub("(\\.\\.\\.)(\\d)", paste0("inng", "\\2"), .), starts_with("...")) %>%
mutate(across(starts_with("inng"), ~ {replace(.x, .x == "x", NA)
as.numeric(.x)}),
inns_count = pmap_dbl(select(cur_data(), starts_with("inng")),
~ sum(!is.na(c(...)))),
inns_sums = pmap_dbl(select(cur_data(), starts_with("inng")),
~ sum(c(...), na.rm = TRUE)))

# A tibble: 5 x 13
team inng1 inng2 inng3 inng4 inng5 inng6 inng7 inng8 inng9 ondate inns_count inns_sums
<chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <date> <dbl> <dbl>
1 NYM 0 1 0 0 0 0 0 0 0 2020-08-01 9 1
2 NYM 10 1 1 4 0 0 0 6 NA 2020-08-02 8 22
3 BOS 0 0 2 2 0 0 0 1 0 2020-08-13 9 5
4 NYM 0 0 0 0 0 11 0 1 NA 2020-08-15 8 12
5 BOS 3 1 1 2 0 0 NA NA NA 2020-08-20 6 7

关于r - 需要使用 R 从字符串列中提取单个字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68593699/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com