gpt4 book ai didi

python - 从文件加载数据集,与 sklearn/numpy 一起使用,包括标签

转载 作者:太空狗 更新时间:2023-10-29 22:16:22 26 4
gpt4 key购买 nike

我看到通过 sklearn 我们可以使用一些预定义的数据集,例如 mydataset = datasets.load_digits() 我们可以获得数据集 mydataset 的数组(numpy 数组?) .data 和相应标签的数组 mydataset.target。但是我想加载我自己的数据集以便能够将它与 sklearn 一起使用。我应该如何以及以哪种格式加载我的数据?我的文件具有以下格式(每行是一个数据点):

-0.2080,0.3480,0.3280,0.5040,0.9320,1.0000,label1
-0.2864,0.1992,0.2822,0.4398,0.7012,0.7800,label3
...
...
-0.2348,0.3826,0.6142,0.7492,0.0546,-0.4020,label2
-0.1856,0.3592,0.7126,0.7366,0.3414,0.1018,label1

最佳答案

您可以使用 numpy 的 genfromtxt 函数从文件中检索数据(http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html)

import numpy as np
mydata = np.genfromtxt(filename, delimiter=",")

但是,如果您有文本列,则使用 genfromtxt 会比较棘手,因为您需要指定数据类型。

使用优秀的 Pandas 库 ( http://pandas.pydata.org/ ) 会容易得多

import pandas as pd
mydata = pd.read_csv(filename)
target = mydata["Label"] #provided your csv has header row, and the label column is named "Label"

#select all but the last column as data
data = mydata.ix[:,:-1]

关于python - 从文件加载数据集,与 sklearn/numpy 一起使用,包括标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15109165/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com