用于获取所有可能的 7 个字母组合以在 pymol 中生成肽的 Linux 脚本？

转载作者：塔克拉玛干更新时间：2023-11-03 01:51:40

26

4

我希望生成一个文件夹，其中包含 7(lengh)个特定氨基酸的每个肽的 pdb 文件。我想首先制作一个简单的 linux 脚本来生成一个包含所有 7 个字母组合的文件，如下所示:

AAAAAAA
AAAAAAB
AAAAABA
AAAABAA
AAABAAA
AABAAAA
ABAAAAA
BAAAAAA
AAAAABB
AAAABAB
...

我认为这个脚本可以工作，但我不确定:

for c1 in {A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
do
    for c2 in {A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
    do
        for c3 in {A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
        do
            for c4 in {A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
            do
                for c5 in {A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
                do
                    printf "%s\n" "$c1$c2$c3$c4$c5"
                done
            done
        done
    done
done

然后使用和其他简单的脚本，最后一个文件的每一行用这个命令用 pymol 生成一个肽:

for aa in "row1": cmd._alt(string.lower(aa))
save row1.pdb, all

我是编写 Linux 脚本的新手。有人可以帮我吗？谢谢

最佳答案

我看了一下 (ab?)using brace expansion 的想法:

p='{A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}'
eval echo $p$p$p$p$p$p$p

在 7 个 $p 的一个简单步骤中使用这种直接的方法对于 bash 来说实在是太多了。没有明显的原因，它吃掉了所有内存(随时间的测量显示没有其他内存值增加得这么快)。
对于最多大约 4 个 $p，该命令非常快速且非常简单，仅两行:

p='{A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}'
eval echo $p$p$p$p

但是，内存使用量增长得相当快。在 6 次 $p 重复的深度，进程消耗了超过 7.80 Gigs 的内存。eval 部分还有助于增加执行时间和内存使用量。

需要一种替代方法。因此，我尝试利用 Jonathan Leffler 使用的概念，独立进行每一步扩展。对于输入中的每一行，写 19 行，每行都有一个额外的字母输出。我发现任何 eval 都是重要的内存消耗(此处未显示)。

bash

一个更简单的 bash 过滤器是:

bashfilter(){
    while read -r line; do
        printf '%s\n' ${line}{A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
    done </dev/stdin
}

可用于多个级别的处理:

echo | bashfilter | bashfilter | bashfilter

它只需要重复与每行需要的字母一样多的过滤步骤。

通过这种更简单的方法:内存不再是问题。然而，速度变差了。

莱夫勒SED

只是为了比较，拿它当标尺，我实现了莱弗勒的想法:

# Building Leffler solution:
    leftext="$(<<<"${list}" sed -e 's/,/\n/g')"                 # list into a column.
    leftext="$(<<<"${leftext}" sed -e 's%.%s/$/&/p;s/&$//%')"   # each line ==> s/$/?/p;s/?$//
    # echo -e "This is the leffilter \n$leftext"
leffilter(){ sed -ne "$leftext"; }    # Define a function for easy use.

并且是 leffilter，可以递归地使用它来根据需要在每行中获取尽可能多的字母:

echo | leffilter | leffilter | leffilter

Leffler 解决方案做了一个字母插入和一个字母删除。

经济发展

不需要删除一个字母，可以减少工作量。我们可以将原始模式空间存储在“保留空间”中。

然后，只需将第一行复制到保留空间 (h)，并继续恢复它 (g) 并只插入一个字母。

# Building a sed solution:
    sedtext="$(<<<"${list}" sed -e 's/,/\n/g')"    # list into a column.
    sedtext="$(<<<"${sedtext}" sed -e 's%[A-Z]%g;s/$/&/p;%g')"  # s/$/?/p
    sedtext="$(<<<"${sedtext}" sed -e '1 s/g/h/' )"             # 1st is h
sedfilter(){ sed -ne "$sedtext"; }    # Define a function for easy use.

这样做可以提高速度，大约降低 1/3 (33%)。或快 1.47 倍。

AWK

最后，我提出了一个 AWK 解决方案。我写的比较早，但是是最快的。所以我把它作为最后的选择。最好的，直到有人提出更好的:-)

# An AWK based solution:
awkfilter(){ awk 'BEGIN { split( "'"$list"'",l,",");}
                        { for (i in l) print $0 l[i] }'
}

是的，只有两行。它的时间是 Leffler 解决方案的一半或两倍。

使用的完整测试脚本如下。它重新调用自己以启用外部时间的使用。确保它是一个带有 bash 的可执行文件。

#!/bin/bash
TIMEFORMAT='%3lR %3lU %3lS'
list="A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y"

# A pure bash based solution:
bashfilter(){
    while read -r line; do
        printf '%s\n' ${line}{A,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
    done </dev/stdin
}

# Building Leffler solution:
    leftext="$(<<<"${list}" sed -e 's/,/\n/g')"                 # list into a column.
    leftext="$(<<<"${leftext}" sed -e 's%.%s/$/&/p;s/&$//%')"   # each line ==> s/$/?/p;s/?$//
    # echo -e "This is the lef filter \n$leftext"
leffilter(){ sed -ne "$leftext"; }    # Define a function for easy use.

# Building a sed solution:
    sedtext="$(<<<"${list}" sed -e 's/,/\n/g')"                 # list into a column.
    sedtext="$(<<<"${sedtext}" sed -e 's%[A-Z]%g;s/$/&/p;%g')"  # each letter ==> s/$/?/p
    sedtext="$(<<<"${sedtext}" sed -e '1 s/g/h/' )"             # First command is 'h'.
    # echo -e "This is the sed filter \n$sedtext"
sedfilter(){ sed -ne "$sedtext"; }    # Define a function for easy use.

# An AWK based solution:
awkfilter(){ awk 'BEGIN { split( "'"$list"'",l,",");}
                        { for (i in l) print $0 l[i] }'
}

# Execute command filter
docommand(){
    local a count="$1" filter="$2" peptfile="$3"
    for (( i=0; i<count; i++ )); do
        case $filter in
            firsttry) a+=("{$list}"); ;;
            *)        a+=("| $filter"); ;;
        esac
    done
    [[ $filter == firsttry ]] && a+=('| sed '"'"'s/ /\n/'"'" )
    [[ -n $peptfile ]] && peptfile="$peptfile.$count"

    eval 'echo '"$(printf '%s' "${a[@]}")" > "${peptfile:-/dev/null}";
}

callcmd(){
    tf='wall:%e s:%S u:%U (%Xtext+%Ddata %F %p %t %Kmem %Mmax)'
    printf '%-12.12s' "$1" >&2
    /usr/bin/time -f "$tf" "$0" "$repeats" "$1" "$2"
}

nofile=1
if (( $#>=2 )); then
    docommand "$1" "$2" "$3"; exit 0
else
    for (( i=1; i<=6; i++)); do
        repeats=$i; echo "repeats done = $repeats"
        if ((nofile)); then
            callcmd firsttry
            callcmd bashfilter
            callcmd leffilter
            callcmd sedfilter
            callcmd awkfilter
        else
            callcmd firsttry   peptidesF
            callcmd bashfilter peptidesB
            callcmd leffilter  peptidesL
            callcmd sedfilter  peptidesS
            callcmd awkfilter  peptidesA
        fi
    done
fi

结果

使用外部程序/usr/bin/time(而不是 bash 内置时间)来测量使用的内存。这在这个问题中很重要。

With: tf='wall:%e s:%S u:%U (%Xtext+%Ddata %F %p %t %Kmem %Mmax)'

使用上述脚本很容易找到 7 个循环和真实文件输出的结果，但我觉得填充大约 21 GB 的磁盘空间太多了。

最多 6 个循环的结果是:

   repeats done = 1
firsttry    wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1556max)
bashfilter  wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1552max)
leffilter   wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1556max)
sedfilter   wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1556max)
awkfilter   wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1560max)

:

   repeats done = 2
firsttry    wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1556max)
bashfilter  wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1552max)
leffilter   wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1560max)
sedfilter   wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1556max)
awkfilter   wall:0.01 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1560max)

:

   repeats done = 3
firsttry    wall:0.02 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1796max)
bashfilter  wall:0.07 s:0.00 u:0.05 (0text+0data 0 0 0 0mem 1552max)
leffilter   wall:0.02 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1556max)
sedfilter   wall:0.02 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1560max)
awkfilter   wall:0.02 s:0.00 u:0.00 (0text+0data 0 0 0 0mem 1556max)

:

   repeats done = 4
firsttry    wall:0.28 s:0.01 u:0.26 (0text+0data 0 0 0 0mem 25268max)
bashfilter  wall:0.96 s:0.03 u:0.94 (0text+0data 0 0 0 0mem 1552max)
leffilter   wall:0.13 s:0.00 u:0.12 (0text+0data 0 0 0 0mem 1560max)
sedfilter   wall:0.10 s:0.00 u:0.08 (0text+0data 0 0 0 0mem 1560max)
awkfilter   wall:0.09 s:0.00 u:0.07 (0text+0data 0 0 0 0mem 1560max)

:

   repeats done = 5
firsttry    wall:4.98 s:0.36 u:4.76 (0text+0data 0 0 0 0mem 465100max)
bashfilter  wall:20.19 s:0.81 u:20.18 (0text+0data 0 0 0 0mem 1552max)
leffilter   wall:2.43 s:0.00 u:2.50 (0text+0data 0 0 0 0mem 1556max)
sedfilter   wall:1.83 s:0.01 u:1.87 (0text+0data 0 0 0 0mem 1556max)
awkfilter   wall:1.49 s:0.00 u:1.54 (0text+0data 0 0 0 0mem 1560max)

:

   repeats done = 6
firsttry    wall:893.06 s:30.04 u:105.22 (0text+0data 402288 0 0 0mem 7802372m)
bashfilter  wall:365.13 s:14.95 u:368.09 (0text+0data 0 0 0 0mem 1548max)
leffilter   wall:51.90 s:0.09 u:53.91 (0text+0data 6 0 0 0mem 1560max)
sedfilter   wall:35.17 s:0.08 u:36.67 (0text+0data 0 0 0 0mem 1556max)
awkfilter   wall:25.60 s:0.06 u:26.77 (0text+0data 1 0 0 0mem 1556max)

关于用于获取所有可能的 7 个字母组合以在 pymol 中生成肽的 Linux 脚本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33179635/

26

4

0

文章推荐： c++ - 调用 gcc _without_ -pthread 有什么好处？

文章推荐： linux - 为什么我在数字比较时收到命令未找到错误？

文章推荐： c++ - 使用 boost 时出现问题，无法打开共享对象文件

组合/值的mysql分布
我有一个 mysql 表，其中包含一些随机数字组合。为简单起见，以下表为例: index|n1|n2|n3 1 1 2 3 2 4 10 32 3 3 10 4 4
SQL - 组合 AND & OR
我有以下代码: SELECT sdd.sd_doc_classification, sdd.sd_title, sdd.sd_desc, sdr.sd_upl
组合 2 个数据帧时按日期重复变量
如果我有两个要合并的数据框 Date RollingSTD 01/06/2012 0.16 01/07/2012 0.18 01/08/2012 0.17 01/09/20
clojure - 没有码头的环/组合
我知道可以使用 lein ring war 创建一个 war 文件，但它似乎仍然包含码头依赖项。当我构建 war (并在 tomcat 上部署)时，有没有办法排除码头依赖项？如果我根本不能做这件事，
clone - 封装聚合/组合
维基百科关于封装的文章指出: “封装还通过防止用户将组件的内部数据设置为无效或不一致的状态来保护组件的完整性” 我在一个论坛上开始讨论封装，在那里我问你是否应该始终在 setter 和/或 gette
带有复选框的 ExtJS 组合
对于我使用的组合框内的复选框: AOEDComboAssociationName = new Ext.form.ComboBox({ id: 'AOEDComboAssociationName',
c# - 组合 Where 语句的表达式
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: How do I combine LINQ expressions into one? public boo
rust - 组合/排列的数量
如何在 rust 中找到排列或组合的数量？例如C(10,6) = 210 我在标准库中找不到这个函数，也找不到那里的阶乘运算符(这就足够了)。最佳答案以@vallentin 的回答为基础，可以进
泛型类型的 Scala 组合
我有一个复杂的泛型类型用例，已在下面进行了简化 trait A class AB extends A{ val v = 10 } trait X[T<:A]{ def request: T }
Hibernate 标准限制 AND/OR 组合
如何使用 Hibernate 限制来实现此目的？ (((A='X') and (B in('X',Y))) or ((A='Y') and (B='Z'))) 最佳答案思考有效 Criteria c
javascript - 在谷歌条形图上绘制直线(组合)
我一定会在我的一个项目中使用谷歌图表。我需要的是，显示一个条形图，并且在条形图中，与每个条形相交的线代表另一个值。如果您查看下面的 jsfiddle，您会发现折线图仅与中间的条形图相交，并继续向其他条
javascript - 组合/匹配数组
只是一个简单的问题，我也很想得到答案，因为我不能百分百理解 Javascript 示例:假设您提示用户输入名称。够简单吧？但是你有一个数组，上面写着一些名字(其中之一就是)，基本上就是我到目前为止所说
具有两个参数的 Haskell 组合
我试图通过 Haskell 理解函数式编程，但在处理函数组合时遇到了很多麻烦。其实我有这两个功能: add:: Integer -> Integer -> Integer add x y = x
Realm :组合 "or"和 "and"
我正在寻找一种在 Realm 查询中组合 AND 和 OR 的方法。这是我的课: class Event extends RealmObject { String id; String
Ruby - 哈希 - 组合
例如，我有一个包含 5 个元素的哈希: my_hash = {a: 'qwe', b: 'zcx', c: 'dss', d: 'ccc', e: 'www' } 我的目标是每次循环哈希时都返回，但没
ios - 组合:以一定的延迟发布序列的元素
我是Combine 的新手，我想得到一个看似简单的东西。假设我有一个整数集合，例如: let myCollection = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 我想以例如 0
java - 组合、转发和包装
关于“优先组合而不是继承”的问题，我的老师是这样说的: 组合:现有类成为新类的组件转发:新类中的每个实例方法，在现有类的包含实例上调用相应的方法并返回结果包装器:新类封装了现有的这三个概念我不是
java - 组合 if-then 语句
我正在尝试将单个整数从 ASCII 值转换为 0 和 1。相关代码如下所示: int num1 = bin.charAt(0); int num2 = bin.charAt(1);
java - 组合:如何使用点表示法访问非静态变量而不出现空指针异常？
这个问题已经有答案了: What is a NullPointerException, and how do I fix it? (12 个回答) 已关闭 7 年前。我经常看到“嵌套”类中的非静态变
python - 组合/合并具有重复名称的两个数据集
我尝试合并两个数据集(DataFrame)，如下所示: D1 = pd.DataFrame({'Village':['Ampil','Ampil','Ampil','Bachey','Bachey',

首页

博学

6Ren·AI

商城

用于获取所有可能的 7 个字母组合以在 pymol 中生成肽的 Linux 脚本？

bash

莱夫勒SED

经济发展

AWK

结果