gpt4 book ai didi

python - 堆叠 CSV 文件的最快方法

转载 作者:行者123 更新时间:2023-11-28 21:43:20 28 4
gpt4 key购买 nike

我有 10 个具有完全相同的列和数据类型的 csv 文件。什么是最快/最有效的堆叠方式?

CSV1:

col1 | col2 | col3
1 | 'a' | 0.1
2 | 'b' | 0.8

CSV2:

col1 | col2 | col3
3 | 'c' | 0.4
4 | 'd' | 0.3

我可以用 Pandas 读取它们并重复 df.append 但这看起来很慢,因为我必须将所有内容读入内存并且如果文件非常大可以需要一段时间。想知道我是否可以使用 bash 命令或其他一些 Python 包更快地完成它。

我宁愿不使用具有任何严重依赖性或需要编译的东西。

附言如果解决方案还可以自动处理存在于一个数据集中而不是另一个数据集中的列,则加分。

最佳答案

使用headtail 的解决方案

head -n1 a.log > output.log
for f in a.log b.log; do tail -n+2 $f; done >> output.log

如果您的输入文件末尾可能没有换行符,您必须像@zwar 指出的那样手动添加它。给出了这个问题的许多解决方案in this thread .在这种情况下我最喜欢的是

head -n1 a.log > output.log
for f in a.log b.log
do
tail -n+2 $f
[ -n "$(tail -c1 $f)" ] && echo ""
done >> output.log

关于python - 堆叠 CSV 文件的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42329494/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com