gpt4 book ai didi

python - 切片 Dask 数据框

转载 作者:太空狗 更新时间:2023-10-30 01:05:28 25 4
gpt4 key购买 nike

我有以下代码,我喜欢在 Dask 数据帧上进行训练/测试拆分

df = dd.read_csv(csv_filename, sep=',', encoding="latin-1",
names=cols, header=0, dtype='str')

但是当我尝试像

这样的切片时
for train, test in cv.split(X, y):
df.fit(X[train], y[train])

它因错误而失败

KeyError: '[11639 11641 11642 ..., 34997 34998 34999] not in index'

有什么想法吗?

最佳答案

Dask.dataframe 不支持按行切片。如果您有一个合理的索引,它确实支持 loc 操作。

然而,在您进行训练/测试拆分的情况下,random_split 可能会更好地为您服务方法。

train, test = df.random_split([0.80, 0.20])

你也可以用不同的方式进行多次拆分和连接

splits = df.random_split([0.20, 0.20, 0.20, 0.20, 0.20])

for i in range(5):
trains = [splits[j] for j in range(5) if j != i]
train = dd.concat(trains, axis=0)
test = splits[i]

关于python - 切片 Dask 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44475492/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com