gpt4 book ai didi

shell - 通过大文件逐步搜索

转载 作者:行者123 更新时间:2023-12-04 19:09:02 25 4
gpt4 key购买 nike

我有几个大数据文件(大约 100MB-1GB 的文本)和一个包含数万个时间戳的排序列表,这些时间戳对感兴趣的数据点进行索引。时间戳文件如下所示:

12345
15467
67256
182387
199364
...

数据文件如下所示:
Line of text
12345 0.234 0.123 2.321
More text
Some unimportant data
14509 0.987 0.543 3.600
More text
15467 0.678 0.345 4.431

第二个文件中的数据都是按时间戳顺序排列的。我想使用第一个文件的时间戳对第二个文件进行 grep,在输出文件中打印时间戳和第四个数据项。我一直在用这个:
grep -wf time.stamps data.file | awk '{print $1 "\t" $4 }'  >> output.file

对于每个数据文件,这需要一天的时间来完成。问题是这个命令在time.stamps 中搜索每一行的整个数据文件,但我只需要从最后一个数据点开始搜索。有什么办法可以加快这个过程吗?

最佳答案

您可以在 awk 中完全做到这一点…

awk 'NR==FNR{a[$1]++;next}($1 in a){print $1,$4}' timestampfile datafile

关于shell - 通过大文件逐步搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17458051/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com