gpt4 book ai didi

python - 如何使用 scikit-learn 创建我自己的数据集?

转载 作者:太空宇宙 更新时间:2023-11-04 05:13:19 25 4
gpt4 key购买 nike

我想创建自己的数据集,并在 scikit-learn 中使用它。 Scikit-learn 有一些数据集,例如“The Boston Housing Dataset”(.csv),用户可以通过以下方式使用它:

from sklearn import datasets 
boston = datasets.load_boston()

下面的代码可以得到这个数据集的datatarget:

X = boston.data
y = boston.target

问题是如何创建我自己的数据集并以这种方式使用?感谢任何答案,谢谢!

最佳答案

这里有一个快速而肮脏的方法来实现你的意图:

my_datasets.py

import numpy as np
import csv
from sklearn.utils import Bunch

def load_my_fancy_dataset():
with open(r'my_fancy_dataset.csv') as csv_file:
data_reader = csv.reader(csv_file)
feature_names = next(data_reader)[:-1]
data = []
target = []
for row in data_reader:
features = row[:-1]
label = row[-1]
data.append([float(num) for num in features])
target.append(int(label))

data = np.array(data)
target = np.array(target)
return Bunch(data=data, target=target, feature_names=feature_names)

my_fancy_dataset.csv

feature_1,feature_2,feature_3,class_label
5.9,1203,0.69,2
7.2,902,0.52,0
6.3,143,0.44,1
-2.6,291,0.15,1
1.8,486,0.37,0

演示

In [12]: import my_datasets

In [13]: mfd = my_datasets.load_my_fancy_dataset()

In [14]: X = mfd.data

In [15]: y = mfd.target

In [16]: X
Out[16]:
array([[ 5.900e+00, 1.203e+03, 6.900e-01],
[ 7.200e+00, 9.020e+02, 5.200e-01],
[ 6.300e+00, 1.430e+02, 4.400e-01],
[-2.600e+00, 2.910e+02, 1.500e-01],
[ 1.800e+00, 4.860e+02, 3.700e-01]])

In [17]: y
Out[17]: array([2, 0, 1, 1, 0])

In [18]: mfd.feature_names
Out[18]: ['feature_1', 'feature_2', 'feature_3']

关于python - 如何使用 scikit-learn 创建我自己的数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42432850/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com