gpt4 book ai didi

根据其他数据帧映射替换某些行中的值

转载 作者:行者123 更新时间:2023-12-04 10:28:15 26 4
gpt4 key购买 nike

我有一个表格 (d.tab),其中包含调查中的问答对。其中一些是单选答案,一些是多项选择。我想从它的数值中查找单选答案的文本值。为此,我有一个查找表 (d.lookup)。

我试图合并这些,但它有点难看,因为我现在必须过滤掉所有value != answer_id 的行。有没有更漂亮的方法,可能使用 plyrdplyrtidyr

tab = '
question_id question_type subject value
1 single-choice 1 1
2 multiple-choice 1 2
3 single-choice 1 2
1 single-choice 2 2
2 multiple-choice 2 3,4
3 single-choice 2 2
'

lookup = '
question_id answer_id answer_text
1 1 female
1 2 male
3 1 no
3 2 yes
'

d.tab = read.table(text = tab, header = TRUE)
d.lookup = read.table(text = lookup, header = TRUE)

merge(d.tab, d.lookup, by = "question_id", all.x = TRUE)

我不想对 multiple-choice 行做任何事情,只是更新原始数据框以将 value 替换为 d 中的实际文本。 tabanswer_text 如果 answer_idvalue 匹配。

我知道我能做到:

merge(d.tab, d.lookup, by.x = c("question_id", "value"), by.y = c("question_id", "answer_id"), all.x = TRUE)

但是这给了我一个新列 answer_text,原始 value 仍然存在,我不需要。

最佳答案

您的问题中正确调用了 merge()。剩下的就是过滤具有单选答案的行并选择除 value 之外的所有列。使用 dplyr,可以按如下方式完成:

library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
merge(d.lookup, by.x = c("question_id", "value"),
by.y = c("question_id", "answer_id")) %>%
select(-value)

第二行包含将因子变量value 显式转换为数字。这很重要,因为将因子转换为数值会导致奇怪的结果。我将在下面添加有关此主题的几行内容。

注意 dplyr 也有自己的函数来代替 merge。如果您的表很大,您会注意到这些更有效。使用 dplyr 中的 left_join 解决方案如下:

library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
left_join(d.lookup,
by = c("question_id" = "question_id",
"value" = "answer_id")) %>%
select(-value)

所以这里是关于我 promise 的因素的评论。因子的问题在于它们实际上是整数,其中每个整数值都有一个与之关联的标签。当您使用 as.numeric() 天真地将因子转换为数值时,您将获得与标签关联的整数。您几乎肯定会遇到这个数据问题,原因如下。

我创建了一个模拟您的数据的因子变量:

values <- factor(c("1", "2", "3,4", "3", "4"))

现在我丢弃第三个值 ("3,4") 并转换为数字:

as.numeric(values[-3])
## [1] 1 2 3 5

这可能不是您所期望的。原因是数字 1 到 5 与我们上面定义的五个级别相关联。如果要得到与标签匹配的数字,需要先转换为字符:

as.numeric(as.character(values[-3]))
## [1] 1 2 3 4

因此,即使 merge() 在某处将因子转换为数字,我也不会依赖它以您想要的方式进行。因此,您应该明确地进行转换。

关于根据其他数据帧映射替换某些行中的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35670213/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com