perl - 查找并打印所有重叠的 k-mers-6ren

perl - 查找并打印所有重叠的 k-mers

转载作者：行者123 更新时间：2023-12-01 07:32:23

25

4

我正在尝试编写一个 perl 程序，该程序读取 fasta 文件并打印出一个文本文件，其中包含来自序列 (fasta) 文件的所有可用(重叠)长度为 15 k-mer 的文本文件。当我搜索非重叠 k-mer 时，该程序运行良好，但是当我对其进行编码以查找重叠 k-mer 时，它需要很长时间才能执行，而 Cygwin 最终在 12 小时后终止了程序。 (我把 match_count 留在那里计算总数，请随意忽略该行)

#!/usr/bin/perl
use strict;
use warnings;

my $k = 15;
my $input = 'fasta.fasta';
my $output = 'text.txt';
my $match_count = 0;

#Open File
unless (open(FASTA, "<", $input)){
    die "Unable to open fasta file", $!;
    }

    #Unwraps the FASTA format file
    $/=">";
    #Separate header and sequence
    #Remove spaces
unless (open(OUTPUT, ">", $output)){
die "Unable to open file", $!;
}

    while (my $line = <FASTA>){
            my($header, @seq) = split(/\n/, $line);
                    my $sequence = join '', @seq;

    while (length($sequence) >= $k){
        $sequence =~ m/(.{$k})/;
        print OUTPUT "$1\n";
        $sequence = substr($sequence, 1, length($sequence)-1);
    }
}

我正在寻找的结果是:

A total of 20938309 k-mers printed in the text file when I use the wc -l command.

提前致谢!

最佳答案

不知道为什么你没有得到你想要的结果。

我想我会按照您的问题描述发布我使用过的 2 个程序。

第一个只是计算我用于测试的文件中的公里数，( fasta_dat.txt)。它不会将它们打印出来，而只是检查有多少 kmer。

#!/usr/bin/perl
use strict;
use warnings;
use Bio::SeqIO;

my $in  = Bio::SeqIO->new( -file   => "fasta_dat.txt" ,
                           -format => 'fasta');

my $count_kmers;
my $k = 15;
while ( my $seq = $in->next_seq) {
    $count_kmers += $seq->length - $k + 1;
}

print $count_kmers;

__END__
C:\Old_Data\perlp>perl t9.pl
18657

您可以看到计数(在 __END__ 标记之后)，18657。当我使用您的代码打印出来时，该计数与 kmers 的计数一致。

#!/usr/bin/perl
use strict;
use warnings;
use 5.014;
use Devel::Size 'total_size';

my $k = 15;
my $input = 'fasta_dat.txt';
my $output = 'kmers.txt';
my $match_count = 0;

#Open File
unless (open(FASTA, "<", $input)){
    die "Unable to open fasta file", $!;
    }

    #Unwraps the FASTA format file
    $/=">";
    #Separate header and sequence
    #Remove spaces
unless (open(OUTPUT, ">", $output)){
    die "Unable to open file", $!;
}

<FASTA>; # discard 'first' 'empty' record

my %seen;
while (my $line = <FASTA>){
    chomp $line;
    my($header, @seq) = split(/\n/, $line);
    my $sequence = join '', @seq;

    for my $i (0 .. length($sequence) - $k) {
        my $kmer = substr($sequence, $i, $k);
        print OUTPUT $kmer, "\n" unless $seen{$kmer}++;
    }
}
print total_size(\%seen);

更新我运行的测试显示哈希大小的内存增加了大约 100 倍。我的测试中的 kmer 数量约为 18500。这导致哈希大小为 1.8MB。

对于您的数据，如果 kmers 为 22M，则哈希大小约为 2.2GB。不知道这是否会超出您的内存容量。

关于perl - 查找并打印所有重叠的 k-mers，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40228470/

25

4

0

文章推荐： jquery - 使用 jQuery 模式对话框上传图像示例

文章推荐： java - boolean 值不会改变

PHP : echo"", 打印()，打印()
有没有更好的方法用 PHP 将数据输出到 html 页面？如果我想在 php 中用一些 var 制作一个 div，我会写类似的东西 print (''.$var.''); 或 echo "''.$v
javax 打印 vs java awt 打印 api
我可以使用 java awt print 来打印文档/文件而不是使用 javax print 吗？我发现在 java awt print 中有一个选项可以使用 AttributedString 将内容
R 命令行最佳实践 : exit, 打印 stdout、打印 stderr、避免警告
目前我通过以下方式运行 R 脚本: R --slave argument1 argument2 ... 我想知道 R 中关于如何退出脚本并发出警告的最佳实践，q() 会这样做吗？ if(!file.
c++ - 用 gcc 打印 c，用 g++ 打印 c++
谁能告诉我如何编写一个程序，用 gcc 编译时打印 c ，用 g++ 编译时打印 c++? 最佳答案 #ifdef __cplusplus printf("c++\n"); #else
android - 如何通过反射使用 KitKat 4.4 打印 API 打印 WebView？
我需要支持在 KitKat 设备上打印，但我的目标 SDK 是 13(无法更改)。特别是我需要打印一个 webview。这是用于打印 webview 的 API: http://developer
Python输入函数，打印
我正在尝试创建一个简单的函数，其中 python 将根据您的年份输入计算年龄。我已经尝试了几种方法，但我没有运气 atm。附:对不起，我是新手。 ame = input(" Enter your n
JavaFX 打印
JavaFX 2.0 是否支持打印？我有一个文本区域，我从中获取文本然后我想打印它，但似乎没有这个功能。当然，这里我说的是打印到打印机。 :) 最佳答案尚不支持。作为一种解决方法，您可以使用 Ja
Smalltalk - 打印 :
我试图找出printOn的重点。我查看了一些实现它的类，看起来它只是帮助打印不同数据类型的单位。这是准确的吗？如果是这样，有人能指出我如何为我自己的类(class)实现这一点的正确方向吗？我将在可能
打印 Canvas
我无法让 IE 打印我的 Canvas (使用 excanvas 生成)...我使用的是最新版本的 excanvas。 http://dl.dropbox.com/u/997831/canvas.ht
信号处理程序中的 C++ 打印？
我搜索了很多但没有人回答我的问题，我读到在这样的信号处理程序中使用 cout 是不安全的: void ctrlZHandler(int sig_num) { //SIGTSTP-18
python - MongoDB - 打印
我有兴趣打印一系列查询。我有以下代码。 start = datetime.datetime(2012, 2, 2, 6, 35, 6, 764) end = datetime.datetime(201
Java 打印 "?"而不是事物
public class javaClass { public static void main(String [] arg) { String row1 = "A____A"
python - 打印()到上一行？
我需要写入前一行的命令，例如不带\n 的 print()。下面是一些示例代码: a=0 print("Random string value") if a==0: print_to_prev
SwiftUI 打印 View
我有一个使用 UIKit 和 Objective C 的旧 iOS 应用程序，我目前正在将其移植到 SwiftUI 和 Swift。一切都很顺利，我喜欢 Swift 和 SwiftUI。该应用程序已经
Python 打印 while 循环的每次迭代
我创建了一个求和函数，它接受一个开始编号和一个结束编号，并返回这两点之间的总和答案 def print_sum_equations(start_number,end_number):
raku - 打印、放置和说的区别？
在 Perl 6 中，print 和有什么区别？ , put和 say ? 我怎么看 print 5不同，但 put 5和 say 5看起来一样。最佳答案 put $a就像 print $a.Str
jquery - 打印 getOrgChart
我正在使用 here 中的 getOrgChart 库，我正在尝试打印整个图表，而不仅仅是可见部分。不幸的是，当使用标准库打印功能时，它只会打印出第一部分，而我不知道如何打印整个图表(该图表相当宽，大
macos - cocoa 打印
我制作了一个非常适合 A4 页面的 View 。现在我想打印它。请注意，我没有使用drawRect或类似的东西，只是一个带有 subview 和文本标签的普通 View 。我的问题是，我对该 View
cocoa - 打印 NSImage
由于 Cocoa-Java 已弃用，我正在将 Cocoa-Java 代码迁移到 Cocoa + JNI。该代码打印存储在文件中的图像。新的 Cocoa 代码基本上是: NSImage *image =
delphi - 打印 TDBGrid
这个问题已经有答案了: Printing a TDBGrid (4 个回答) 已关闭 6 年前。如何在不安装或下载组件的情况下打印 DBGrid？或者如何将 DBGrid 的数据放入 RichE

首页

博学

6Ren·AI

商城

perl - 查找并打印所有重叠的 k-mers