gpt4 book ai didi

regex - 逐行解析文件中的关键字符并复制行

转载 作者:行者123 更新时间:2023-12-05 09:23:25 26 4
gpt4 key购买 nike

我正在尝试解析 DNA 蛋白质文件。我只想提取一定数量的信息。仅当该行以“ATOM”开头并且在第四列末尾有 G、A、T、C 时,我才想解析。例如,在下面的代码片段中,DG 将被解析,因为它末尾有一个 G。然后将该行保存在文件中。我正在使用庆典。你会用什么来做这个? grep、find、sed、awk 或某种正则表达式?

感谢您的帮助!

    HETATM  103 HG22 MVA A   8       4.999  -1.260   2.090  1.00  0.00           H            
HETATM 104 HG23 MVA A 8 5.639 -2.810 2.604 1.00 0.00 H
TER 105 MVA A 8
ATOM 106 O5' DG C 11 -12.710 1.571 -11.945 1.00 0.00 O
ATOM 107 C5' DG C 11 -13.491 2.438 -11.111 1.00 0.00 C

对原始问题的补充:

计算行总数和个人 G、A、T、C?将计数的总数输出到一个文件中,作为 Total Lines、TOTAL G、TOTAL T、TOTAL A、TOTAL C。

最佳答案

awk '/^ATOM/&&$4~/[GATC]$/' input > output

关于regex - 逐行解析文件中的关键字符并复制行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21972726/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com