gpt4 book ai didi

python-3.x - 如何在Python中对没有标题的大型csv信号文件进行分类?

转载 作者:行者123 更新时间:2023-11-30 09:08:27 25 4
gpt4 key购买 nike

我有一个大的 csv 文件 (3000*20000),其中包含没有标题的数据,我添加了一列来表示类。当特征没有标题并且由于列数较多而无法手动添加时,我如何将数据适合模型。有没有办法自动迭代行中的每一列?

当我有一个 4 列的小文件时,我使用了以下代码:

import pandas as pd
pd = pd.ExcelFile("bcs.xlsx")
col = [0, 1, 2, 3]
data = pd.parse(pd.sheet_names[0], parse_cols = col)

pdc = list(data["pdc"])
pds = list(data["pds"])
pdsh = list(data["pdsh"])
pd_class = list(data["class"])

features = []
for i in range(len(pdc)):
features.append([pdc[i],pds[i],pdsh[i]])

labels = []
labels = pd_class

但是对于 3000 x 20000 的文件,我不知道如何识别特征和标签/目标

最佳答案

假设您有一个这样的 csv:

1,2,3,4,0
1,2,3,4,1
1,2,3,4,1
1,2,3,4,0

其中前 4 列是特征,最后一列是您想要的标签或类。您可以使用 pandas.read_csv 读取该文件并为您的特征创建一个数据框,并为您的标签创建一个数据框,您可以将其安装到您的模型中。

import pandas as pd

#CSV localPath
mypath ='C:\\...'

#The names of the columns you want to have in your dataframe
colNames = ['Feature1','Feature2','Feature3','Feature4','class']

#Read the data as dataframe
df = pd.read_csv(filepath_or_buffer = mypath,
names = colNames , sep = ',' , header = None)

#Get the first four columns as features
features = df.ix[:,:4]
#and last columns as label
labels = df['class']

关于python-3.x - 如何在Python中对没有标题的大型csv信号文件进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46247266/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com