gpt4 book ai didi

python - 将数据文件洗牌并拆分为训练集和测试集

转载 作者:太空狗 更新时间:2023-10-30 01:14:22 24 4
gpt4 key购买 nike

我正在尝试使用 pandas 和 numpy 将数据文件洗牌并拆分为训练集和测试集,因此我执行了以下操作:

import pandas as pd
import numpy as np

data_path = "/path_to_data_file/"

train = pd.read_csv(data_path+"product.txt", header=0, delimiter="|")
ts = train.shape
#print "data dimension", ts
#print "product attributes \n", train.columns.values


#shuffle data set, and split to train and test set.
df = pd.DataFrame(train)
new_train = df.reindex(np.random.permutation(df.index))

indice_90_percent = int((ts[0]/100.0)* 90)

print "90% indice", indice_90_percent

#write train products to csv
#new_train.to_csv(sep="|")

with open('train_products.txt', 'w') as f:
for i in new_train[:indice_90_percent]:
f.write(i+'\n')


with open('test_products.txt', 'w') as f:
for i in new_train[indice_90_percent:]:
f.write(i+'\n')

但是我得到的不是包含数据行的训练和测试文件,而是两个包含列名的文件。我错过了什么?

最佳答案

您可以使用 to_csv写入行,如果您不希望列名使用 header=False

new_train[indice_90_percent:].to_csv('test_products.txt',header=False)
new_train[:indice_90_percent].to_csv('train_products.txt',header=False)

关于python - 将数据文件洗牌并拆分为训练集和测试集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31112689/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com