gpt4 book ai didi

r - 如何使用 dplyr 的 setdiff 将数据分成两组

转载 作者:行者123 更新时间:2023-12-04 12:06:40 25 4
gpt4 key购买 nike

我正在使用 dplyr 将一些数据简单地拆分为训练和测试。

当我做一个简单的例子时,效果很好:

a = c(1, 2, 3, 4, 5, 6, 7, 8)
b = c("A", "B", "C", "D", "E", "F", "G", "H")

df = data.frame(a, b)

train = sample_frac(df, 0.8)
test = setdiff(df, train)

> nrow(train) + nrow(test) == nrow(df)
[1] TRUE

然而,当我尝试使用经典的 UCI Wine 数据集做同样的事情时,我似乎没有得到相同的结果:

wine = read.csv("http://www.nd.edu/~mclark19/learn/data/goodwine.csv")

wine_train = sample_frac(wine, 0.8)
wine_test = setdiff(wine, wine_train)

> nrow(wine_train) + nrow(wine_test) == nrow(wine)
[1] FALSE
> nrow(wine_train) + nrow(wine_test)
[1] 6105
> nrow(wine)
[1] 6497

关于 setdiff 的行为我是否遗漏了什么?

谢谢,股份公司

最佳答案

可能是因为有重复的行:

>any(duplicated(wine))
[1] TRUE

如果您清理数据集:

drunk = wine[!duplicated(wine),]
drunk_train = sample_frac(drunk, 0.8)
drunk_test = setdiff(drunk, drunk_train)
nrow(drunk_test) + nrow(drunk_train) == nrow(drunk)
[1] TRUE

关于r - 如何使用 dplyr 的 setdiff 将数据分成两组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28387725/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com