gpt4 book ai didi

python - 使用 Pandas 读取包含多行标题的文本文件

转载 作者:太空宇宙 更新时间:2023-11-04 09:54:33 25 4
gpt4 key购买 nike

我有以下文件:

        OBJ             OBJ     OBJ                                                                                           
DATE OBJ CLASS DATE OBJ OBJ OBJ
CLASS ENTERED1 TAG REPL ENTERED2 NAME TSTMP USERID
----- ---------- --- ----- ---------- ---------------------------------------- -------------------------- --------
EZ4 2002-02-06 D 2002-02-06 abc random 2002-02-06-10.05.30.242768 2342342
000 2001-09-27 D 2001-09-27 none 2001-09-27-10.23.31.121606 2343242
011 1974-07-09 0001-01-01 board COMPENSATON 1997-01-22-09.10.23.145853

列用下划线定义,标题文本被分成多行。我想将其读入 Pandas 数据框,以便列文本完好无损并删除下划线。我该怎么做才能以我正在寻找的格式获取数据框?

最佳答案

我会使用 pd.read_fwf 固定宽度,但指定分隔符 '\s{2,}'

g = lambda x: '' if x.startswith('Unnamed') else x

pd.read_fwf(
'file.txt',
sep='\s{2,}',
header=[0, 1, 2],
skiprows=[3]
).rename(columns=g)

OBJ OBJ
DATE OBJ CLASS DATE OBJ
CLASS ENTERED1 TAG REPL ENTERED2 NAME TSTMP USERID
0 EZ4 2002-02-06 D NaN 2002-02-06 abc random 2002-02-06-10.05.30.242768 2342342.0
1 000 2001-09-27 D NaN 2001-09-27 none 2001-09-27-10.23.31.121606 2343242.0
2 011 1974-07-09 NaN NaN 0001-01-01 board COMPENSATON 1997-01-22-09.10.23.145853 NaN

关于python - 使用 Pandas 读取包含多行标题的文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46436419/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com