gpt4 book ai didi

bash - 拆分包含 800,000 列的文件

转载 作者:行者123 更新时间:2023-11-29 09:25:21 24 4
gpt4 key购买 nike

我想将一个包含 800,000 列和 40,000 行的基因组数据文件拆分为一系列文件,每个文件有 100 列,总大小为 118GB。

我目前正在运行以下 bash 脚本,多线程 15 次:

infile="$1"
start=$2
end=$3
step=$(($4-1))

for((curr=$start, start=$start, end=$end; curr+step <= end; curr+=step+1)); do
cut -f$curr-$((curr+step)) "$infile" > "${infile}.$curr" -d' '
done

不过,以目前脚本的进度来看,完成 split 需要300天?!

是否有更有效的方法将以空格分隔的文件按列拆分成更小的 block ?

最佳答案

试试这个 awk 脚本:

awk -v cols=100 '{ 
f = 1
for (i = 1; i <= NF; i++) {
printf "%s%s", $i, (i % cols && i < NF ? OFS : ORS) > (FILENAME "." f)
f=int(i/cols)+1
}
}' largefile

我希望它比问题中的 shell 脚本更快。

关于bash - 拆分包含 800,000 列的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40997710/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com