gpt4 book ai didi

python - 数据集中只有一个索引标签

转载 作者:太空宇宙 更新时间:2023-11-04 04:55:20 26 4
gpt4 key购买 nike

我正在使用来自 http://archive.ics.uci 的 ecoli 数据集.edu/ml/数据集/大肠杆菌。这些值由制表符分隔。我想索引每一列并给他们一个名字。但是当我使用以下代码执行此操作时:

import pandas as pd
ecoli_cols= ['N_ecoli', 'info1', 'info2', 'info3', 'info4','info5','info6,'info7','type']
d= pd.read_table('ecoli.csv',sep= ' ',header = None, names= ecoli_cols)

它没有为每个索引创建名称,而是创建了 6 个新列。但是我想为我已经拥有的每个列使用这些索引名称。后来我想从这个数据集中提取信息。因此,将它们以逗号分隔或放在表格中很重要。谢谢

最佳答案

您可以将 url 与数据和分隔符一起使用 \s+ - 一个或多个空格:

url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/ecoli/ecoli.data'

ecoli_cols= ['N_ecoli', 'info1', 'info2', 'info3', 'info4','info5','info6','info7','type']
df = pd.read_table(url,sep= '\s+',header = None, names= ecoli_cols)
#alternative use parameter delim_whitespace
#df = pd.read_table(url, delim_whitespace= True, header = None, names = ecoli_cols)


print (df.head())

N_ecoli info1 info2 info3 info4 info5 info6 info7 type
0 AAT_ECOLI 0.49 0.29 0.48 0.5 0.56 0.24 0.35 cp
1 ACEA_ECOLI 0.07 0.40 0.48 0.5 0.54 0.35 0.44 cp
2 ACEK_ECOLI 0.56 0.40 0.48 0.5 0.49 0.37 0.46 cp
3 ACKA_ECOLI 0.59 0.49 0.48 0.5 0.52 0.45 0.36 cp
4 ADI_ECOLI 0.23 0.32 0.48 0.5 0.55 0.25 0.35 cp

但是如果想使用带有分隔符的文件作为制表符:

d = pd.read_table('ecoli.csv', sep='\t',header = None, names= ecoli_cols)

如果分隔符是 ;:

d = pd.read_table('ecoli.csv', sep=';',header = None, names= ecoli_cols)

关于python - 数据集中只有一个索引标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47200280/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com