gpt4 book ai didi

python Pandas : Best strategy to import heterogenious csv file

转载 作者:太空宇宙 更新时间:2023-11-04 03:06:25 25 4
gpt4 key购买 nike

我有一个不均匀的 csv 文件,我想读入 pandas。该文件看起来像这样:

2016-01-01; 1.00; 2.00
2016-01-02; 1,10; 2.05
2016-01-03; 0.95; 1.90
Some other text in here
2016-01-04; 1.01; 2.04
Some more text there
2016-01-05; 1.06; 2.07

我只需要文本行,这样我就可以跳过以日期开头的行。我尝试了几种策略来读取它并过滤我们所需的数据,但到目前为止没有任何效果。我所知道的是文本行总是以一个特殊的词开头(本例中为“some”)。但是,没有固定的行号可以使用。

最佳答案

如果您想丢弃以单个特殊字符开头的行,您可以使用read_csvcomment 参数,正如@cel 在上面的评论中指出的那样。

否则,您可以使用常规 Python 逻辑从迭代器中过滤掉项目,并使用 CStringIO

例如,要丢弃以"some"开头的行,您可以使用:

import CStringIO

buf = StringIO.StringIO('\n'.join((l for l in open('stuff.txt') if not l.startswith('Some'))))
pd.read_csv(buf, sep=';')

相反,如果您实际上只需要以"some" 开头的行,则使用

buf = StringIO.StringIO('\n'.join((l for l in open('stuff.txt') if l.startswith('Some'))))

关于 python Pandas : Best strategy to import heterogenious csv file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39316831/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com