gpt4 book ai didi

python - 使用准备好的数据进行 Sci-kit 分类

转载 作者:太空宇宙 更新时间:2023-11-03 11:05:10 24 4
gpt4 key购买 nike

我正在尝试使用 Sci-kit learn python 库 对一堆 url 进行分类,以确定是否存在与用户配置文件匹配的某些关键字。用户有姓名、电子邮件地址……以及分配给他们的 url。我创建了一个 txt,其中包含每个链接上每个配置文件数据匹配的结果,格式如下:

Name  Email  Address
0 1 0 =>Relavent
1 1 0 =>Relavent
0 1 1 =>Relavent
0 0 0 =>Not Relavent

其中 0 或 1 表示在页面上找到该属性(每行是一个网页)我如何将这些数据提供给 sci-kit,以便它可以使用它来运行分类器?我见过的所有示例都有来自预定义 sch-kit 库的数据,例如数字或虹膜,或者正在以我已有的格式生成。我只是不知道如何使用我必须提供给图书馆的数据格式

上面是一个玩具示例,我有比 3 更多的功能

最佳答案

需要的数据是numpy array (在本例中为“矩阵”),形状为 (n_samples, n_features)

阅读 csv-file 的简单方法通过使用 numpy.genfromtxt 到正确的格式.另请参阅 this thread .

让 csv 文件的内容(例如当前工作目录中的 file.csv)为:

a,b,c,target
1,1,1,0
1,0,1,0
1,1,0,1
0,0,1,1
0,1,1,0

加载它我们做

data = np.genfromtxt('file.csv', skip_header=True)

skip_header 设置为 True,以防止读取标题列(a,b,c,target 行)。引用numpy's documentation了解更多详情。

加载数据后,您需要根据输入数据格式进行一些预处理。预处理可能类似于拆分输入和目标(分类)或将整个数据集拆分为训练集和验证集(用于交叉验证)。

为了将输入(特征矩阵)从输出(目标向量)中分离出来

features = data[:, :3]
targets = data[:, 3] # The last column is identified as the target

对于上面给定的 CSV 数据,将使用的数组如下所示:

features = array([[ 0, 1, 0],
[ 1, 1, 0],
[ 0, 1, 1],
[ 0, 0, 0]]) # shape = ( 4, 3)

targets = array([ 1, 1, 1, 0]) # shape = ( 4, )

现在这些矩阵被传递给估计器对象 fit 函数。如果您使用流行的 svm 分类器,那么<​​/p>

>>> from sklearn.svm import LinearSVC
>>> linear_svc_model = LinearSVC()
>>> linear_svc_model.fit(X=features, y=targets)

关于python - 使用准备好的数据进行 Sci-kit 分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21492726/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com