gpt4 book ai didi

python - 从包含 10 个文本文件的目录创建数据框

转载 作者:太空宇宙 更新时间:2023-11-03 21:19:46 25 4
gpt4 key购买 nike

我的目录中有10个文本文件,每个文本文件都有随机文本数据(没有表格形式)。我试图从中创建一个数据框,每个文本文件数据应该沿着行而不是列。

我尝试了如下图所示的代码,但是数据正在多列中加载,而不是在行中加载。艰难的是我在 read.csv 方法中指定了 axis 参数仍然没有运气。谁能帮我这个。

filelist = glob.glob('D:/Annaconda/Project/aclImdb_v1/aclImdb/test/neg1/*.txt') 

df_list = [pd.read_csv(file) for file in filelist]

neg_df = pd.concat(df_list, axis=1, sort=False)

test=pd.DataFrame(neg_df)

test_df['label']=0

test_df.head()

预期:所有文件数据应按行附加。

实际:所有文件数据都附加在 10 列中。

最佳答案

这是另外两种没有循环的方法

原始数据文件

d1.csv

a  b  c
1 3 5
2 4 6

d2.csv

a  b   c
5 8 5
6 4 22

d3.csv

a   b   c
15 8 7
10 85 22

基于 Pandas

import pandas as pd
filelist = ['d1.csv', 'd2.csv','d3.csv']
test = pd.concat(map(pd.read_csv, filelist)).reset_index(drop=True)
print(test)
a b c
0 1 3 5
1 2 4 6
2 5 8 5
3 6 4 22
4 15 8 7
5 10 85 22

使用Dask (installation)

import dask.dataframe as dd
ddf = dd.read_csv('d*.csv')
test = ddf.compute().reset_index(drop=True)
print(test)
a b c
0 1 3 5
1 2 4 6
2 5 8 5
3 6 4 22
4 15 8 7
5 10 85 22

来源

  1. SO post for Pandas
  2. SO postfor Dask

关于python - 从包含 10 个文本文件的目录创建数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54389435/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com