perl - 在 perl 中使用指向文件中行的指针-6ren

perl - 在 perl 中使用指向文件中行的指针

转载作者：行者123 更新时间：2023-12-02 09:23:00

我正在尝试在 perl 中使用某种指针，以便我可以查看按字母顺序排序的两个文件中的两个，并匹配两个文件中的内容(如果它们在第一列中具有相同的名称)。我搜索每个文件的方式是查看第一列中哪些行按字母顺序排列较低，然后将该文件上的指针移动到下一行。有点类似于归并排序中的指针。下面的代码是我想要的示例。

使用这两个文件。

设置1

 apple  17  20
 boombox  23  29
 carl  25  29
 cat  22  33
 dog  27  44

设置2

 ants  yes
 boombox  no
 carl  yes
 dentist  yes
 dice  no
 dog  no

我可以制作一个执行类似操作的脚本

($name, $affirmation) = first line in set2; #part I'm confused about I just kind of need some sort of command of something that will do this
while (<>){
        @set1 = split;
        while ($name < set1[0]){
             ($name, $affirmation) = next line in set2;  # part i'm confused about I just kind of need some sort of command of something that will do this
        }
        if ($name = $set[0]{
               print @set1, $affirmation;
        }

这就是我运行它的方式

./script.txt set1

我最终会得到

boombox  23  29  no
carl  25  29  yes
dog  27  44  no

编辑:

我在一些答案中尝试了一些代码，看看是否可以从中生成一些功能代码，但我似乎遇到了问题，并且答案中的一些语法我无法理解，所以我有弄清楚如何调试或解决这个问题很麻烦。

这是我使用以下两个文本文件的具体示例

文本.txt

Apples 0       -1      -1      0       0       0       0       -1 
Apricots 0       1      1      0       0       0       0       1
Fruit        0       -1      -1      0       0       0       0       -1
Grapes        0       -2      -1      0       0       0       0       -2
Oranges   0       1      1      0       0       0       0       -1
Peaches  0       -2      -1      0       0       0       0       -2

text2.txt

Apples      CHR1    +       1167628 1170420 1       1       N
Apricots      CHR1    -       2115898 2144159 1       1       N
Oranges       CHR1    -       19665266        19812066        1       1      N
Noidberry     CHR1    -       1337728 1329993 1       1       N
Peaches       CHR1    -       1337275 1342693 1       1       N

还有这个脚本脚本.pl

#!/usr/bin/perl
use warnings;
my $file_1 = $ARGV[0];
my $file_2 = $ARGV[1];

open my $fh1, '<', $file_1 or die "Can't open $file_1: $!";
open my $fh2, '<', $file_2 or die "Can't open $file_2: $!";

open(my $single, '>', 'text.txt');
open(my $deep, '>', 'text2.txt');
OUTER: while (my $outer = <$fh1>){
        chomp $outer;
        @CopyNumber = split(' ', $outer);
        ($title, $title2) = split('\|', $CopyNumber[0]);
        #print 'title: ',$title,' title2: ',$title2,"\n";
        my $numLoss = 0;
        my $deepLoss = 0;
        for ($i = 1; $i <= $#CopyNumber; $i++){
                #print "$CopyNumber[$i], $#CopyNumber, $i, \n";
                if ($CopyNumber[$i] < 0){
                        $numLoss = $numLoss + 1;
                        if ($CopyNumber[$i] <-1){
                                $deepLoss = $deepLoss + 1;
                        }
                }
        }
        if ($GeneSym and (($GeneSym cmp $title)==0)){ #or (($GeneSym cmp $title2)==0))){
                print $single $Chrom,"\t",$Start,"\t",$Stop,"\t",$numLoss/$#CopyNumber,"\n";
                print $deep $Chrom,"\t",$Start,"\t",$Stop,"\t",$deepLoss/$#CopyNumber,"\n";
                next OUTER;
        }

        INNER: while (my $inner = <$fh2>){
                ($GeneSym, $Chrom, $Strand, $Start, $Stop, $MapId, $TotalMap, $AbnormalMerge, $Overlap) = split(' ', $inner);
                $Chrom =~ s/CHR/hs/ee;
                my $cmp = ($GeneSym cmp $title);
                next OUTER if $cmp < 0;
                if ($cmp==0){ #or (($GeneSym cmp $title2)==0)){
                        print $single $Chrom,"\t",$Start,"\t",$Stop,"\t",$numLoss/$#CopyNumber,"\n";
                        print $deep $Chrom,"\t",$Start,"\t",$Stop,"\t",$deepLoss/$#CopyNumber,"\n";
                        next OUTER;
                }
        }
}

如果我运行 ./script.pl text.txt text2.txt 我应该将其打印到 Number.txt

//对应text2.txt的第2,4,5列，最后一列为数字小于0的列的百分比

hs1     1167628     1170420    0.375 //For Apples
hs1     2115898     2144159    0 //For Apricots
hs1     19665266    19812066   0.125 //For Oranges
hs1     1337275     1342693    0.375 //For Peaches

相反，我得到了这个

hs1     1167628 1170420 0.375
hs1     2115898 2144159 0
hs1     1337275 1342693 0.375

所以我只是收到一个错误

hs1     19665266    19812066   0.125 //For Oranges

未打印

最佳答案

正如您所说，使用:使用cmp进行比较，将行分成两个术语。

对于FILE1文件的每一行，遍历FILE2文件的行，当找到匹配时退出。一旦 FILE2 超出按字母顺序移动到 FILE1 的下一行。

use warnings 'all';
use strict;

sub process {
   my ($name, $affirm_1, $affirm_2) = @_;
   print "$name $affirm_1 $affirm_2\n";
}

my $file_1 = 'set1.txt';
my $file_2 = 'set2.txt';

open my $fh1, '<', $file_1 or die "Can't open $file_1: $!";
open my $fh2, '<', $file_2 or die "Can't open $file_2: $!";

my ($name_2, $affirm_2);
FILE1: while (my $line1 = <$fh1>) {
    chomp $line1;
    my ($name_1, $affirm_1) = split ' ', $line1, 2;

    if ($name_2) {
        my $cmp = $name_1 cmp $name_2;
        next FILE1 if $cmp < 0;
        if ($cmp == 0) {
            process($name_1, $affirm_1, $affirm_2);
            next FILE1;
        }
    }

    FILE2: while (my $line2 = <$fh2>) {
        chomp $line2;
        ($name_2, $affirm_2) = split ' ', $line2, 2;
        my $cmp = $name_1 cmp $name_2;
        next FILE1 if $cmp < 0;
        if ($cmp == 0) {
            process($name_1, $affirm_1, $affirm_2);
            next FILE1;
        }
    }
}

对一些剩余细节的评论。

一旦 FILE2 行“超出”，在 FILE1 的下一次迭代中，我们需要先检查该行，然后再输入 FILE2循环以迭代其剩余行。对于第一个 FILE1 行，$name_2 仍然是 undef，因此 if ($name_2)。

已更新已编辑的帖子。

use warnings 'all';
use strict;

sub process_line {
    my ($single, $deep, $rline, $GeneSym, $Chrom, $Start, $Stop) = @_;
    my ($numLoss, $deepLoss) = calc_loss($rline);
    $Chrom =~ s/CHR/hs/;
    print $single (join "\t", $Chrom, $Start, $Stop, $numLoss/$#$rline), "\n";
    print $deep   (join "\t", $Chrom, $Start, $Stop, $deepLoss/$#$rline), "\n";
}

sub calc_loss {
    my ($rline) = @_; 
    my ($numLoss, $deepLoss) = (0, 0); 
    for my $i (1.. $#$rline) {
        $numLoss  += 1  if $rline->[$i] < 0;
        $deepLoss += 1  if $rline->[$i] < -1; 
    }   
    return $numLoss, $deepLoss;
}

my ($Number,  $NumberDeep) = ('Number.txt', 'NumberDeep.txt');
open my $single, '>', $Number      or die "Can't open $Number: $!";
open my $deep,   '>', $NumberDeep  or die "Can't open $NumberDeep: $!";

my ($file_1, $file_2) = ('set1_new.txt', 'set2_new.txt');    
open my $fh1, '<', $file_1 or die "Can't open $file_1: $!";
open my $fh2, '<', $file_2 or die "Can't open $file_2: $!";

my ($GeneSym, $Chrom, $Strand, $Start, $Stop, 
    $MapId, $TotalMap, $AbnormalMerge, $Overlap);

FILE1: while (my $line1 = <$fh1>) {
    next if $line1 =~ /^\s*$/;
    chomp $line1;

    my @line = split ' ', $line1;

    if ($GeneSym) {
        my $cmp = $line[0] cmp $GeneSym;
        next FILE1 if $cmp < 0;
        if ($cmp == 0) {
            process_line($single, $deep, \@line,
                         $GeneSym, $Chrom, $Start, $Stop);
            next FILE1;
        }   
    }   

    FILE2: while (<$fh2>) {
        next if /^\s*$/;
        chomp;
        ($GeneSym, $Chrom, $Strand, $Start, $Stop, 
             $MapId, $TotalMap, $AbnormalMerge, $Overlap) = split;
        my $cmp = $line[0] cmp $GeneSym;
        next FILE1 if $cmp < 0;
        if ($cmp == 0) {
            process_line($single, $deep, \@line,
                         $GeneSym, $Chrom, $Start, $Stop);
            next FILE1;
        }
    }
}

这会使用给定的示例文件生成所需的输出。采用了一些捷径，请告诉我评论是否有帮助。这里有一些

应该添加很多错误检查。
我假设按原样使用 FILE1 的第一个字段。否则需要进行更改。
处理分为两个函数，计算是分开的。这是没有必要的。
$#$rline 是 $rline arrayref 最后一个元素的索引。如果语法太多，难以忍受，请使用 @$rline - 1，例如 (0..@$rline-1)

对问题中发布的代码的一些评论:

始终，始终，请使用警告；(并使用严格；)
索引上的循环最好这样写foreach my $i (0..$#array)
正则表达式修饰符 /ee 非常复杂。这里完全没有必要。

关于perl - 在 perl 中使用指向文件中行的指针，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40446050/

文章推荐： r - 计算r中的单词共现矩阵

文章推荐： scala - 在 Scala 规范中模拟 future 或

javascript - 使用 WebScriptEndpoint 使用 javascript 使用 WCF 服务
我在网上搜索但没有找到任何合适的文章解释如何使用 javascript 使用 WCF 服务，尤其是 WebScriptEndpoint。任何人都可以对此给出任何指导吗？谢谢最佳答案这是一篇关于
c - 没有结果!!使用 fork() 使用 dup2 使用 2 个管道运行 execlp()
我正在编写一个将运行 Linux 命令的 C 程序，例如: cat/etc/passwd | grep 列表 |剪切-c 1-5 我没有任何结果 *这里 parent 等待第一个 child (chi
python - 处理文件上传，使用 Pillow 调整大小，使用 SQLAlchemy 存储，使用 Flask 提供文件
所以我正在尝试处理文件上传，然后将该文件作为二进制文件存储到数据库中。在我存储它之后，我尝试在给定的 URL 上提供文件。我似乎找不到适合这里的方法。我需要使用数据库，因为我使用 Google 应用引
excel - 使用 IF 使用 VBA 在单元格中添加公式的问题
我正在尝试制作一个宏，将下面的公式添加到单元格中，然后将其拖到整个列中并在 H 列中复制相同的公式我想在 F 和 H 列中输入公式的数据 Range("F1").formula = "=IF(ISE
使用 OperatorPrecedenceParser 使用 FParsec 解析函数应用程序？
问题类似于this one ，但我想使用 OperatorPrecedenceParser 解析带有函数应用程序的表达式在 FParsec . 这是我的 AST: type Expression =
sql - 使用 sequelize 使用 where 查询编码计数
我想通过使用 sequelize 和 node.js 将这个查询更改为代码取决于在哪里 select COUNT(gender) as genderCount from customers where
bash - 使用 “let”分配Bash失败，使用 “/”
我正在使用GNU bash，版本5.0.3(1)-发行版(x86_64-pc-linux-gnu)，我想知道为什么简单的赋值语句会出现语法错误: #/bin/bash var1=/tmp
javascript - 使用 JavaScript 使用 FOR OF 数组循环时出现错误？
这里，为什么我的代码在 IE 中不起作用。我的代码适用于所有浏览器。没有问题。但是当我在 IE 上运行我的项目时，它发现错误。而且我的 jquery 类和 insertadjacentHTMl 也不
javascript - 使用 javascript 使用 for 属性更改表单标签内容
我正在尝试更改标签的innerHTML。我无权访问该表单，因此无法编辑 HTML。标签具有的唯一标识符是“for”属性。这是输入和标签的结构:
javascript - 使用 jquery 使用 .on() 将事件附加到页面上的动态插入按钮
我有一个页面，我可以在其中返回用户帖子，可以使用一些 jquery 代码对这些帖子进行即时评论，在发布新评论后，我在帖子下插入新评论以及删除按钮。问题是 Delete 按钮在新插入的元素上不起作用，
使用 awk 使用 sha1sum 进行散列
我有一个大约有 20 列的“管道分隔”文件。我只想使用 sha1sum 散列第一列，它是一个数字，如帐号，并按原样返回其余列。使用 awk 或 sed 执行此操作的最佳方法是什么？ Accounti
mysql - 使用 insert into 使用 mysql
我需要将以下内容插入到我的表中...我的用户表有五列 id、用户名、密码、名称、条目。 (我还没有提交任何东西到条目中，我稍后会使用 php 来做)但由于某种原因我不断收到这个错误:#1054 - U
jquery - 将输入字段值修剪为仅字母数字字符/使用 .使用 jQuery
所以我试图有一个输入字段，我可以在其中输入任何字符，但然后将输入的值小写，删除任何非字母数字字符，留下“。”而不是空格。例如，如果我输入: 地球的 70% 是水，-!*#$^^ & 30% 土地输
javascript - 使用 .innerHTML 使用 DOM
我正在尝试做一些我认为非常简单的事情，但出于某种原因我没有得到想要的结果？我是 javascript 的新手，但对 java 有经验，所以我相信我没有使用某种正确的规则。这是一个获取输入值、检查选择
php - 使用 angularjs 使用 where 子句从数据库获取数据
我想使用 angularjs 从 mysql 数据库加载数据。这就是应用程序的工作原理；用户登录，他们的用户名存储在 cookie 中。该用户名显示在主页上我想获取这个值并通过 angularjs
ios - 使用 UITableViewCell 使用 AutoLayout
我正在使用 autoLayout，我想在 UITableViewCell 上放置一个 UIlabel，它应该始终位于单元格的右侧和右侧的中心。这就是我想要实现的目标所以在这里你可以看到我正在谈论的
mysql - 使用 ElasticSearch 使用 or 和运算符搜索多个字段
我需要与 MySql 等效的 elasticsearch 查询。我的 sql 查询: SELECT DISTINCT t.product_id AS id FROM tbl_sup_price t
ios - 使用 Swift 使用 JSON
我正在实现代码以使用 JSON。 func setup() { if let flickrURL = NSURL(string: "https://api.flickr.com/
javascript - 使用 JavaScript 使用 for 循环声明变量
我尝试使用for循环声明变量，然后测试cols和rols是否相同。如果是，它将运行递归函数。但是，我在 javascript 中执行 do 时遇到问题。有人可以帮忙吗？现在，在比较 col.1 和
jquery - 使用 :after 使用 jquery 更改样式
我举了一个我正在处理的问题的简短示例。 HTML代码: 1 2 3 CSS 代码: .BB a:hover{ color: #000; } .BB > li:after {

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

perl - 在 perl 中使用指向文件中行的指针