arrays - 在 Perl 中使用 FTP 流中的哈希值-6ren

arrays - 在 Perl 中使用 FTP 流中的哈希值

转载作者：行者123 更新时间：2023-12-02 11:46:54

好吧，显然我在理解如何使用哈希时遇到了一些问题。长话短说，我试图解析 ftp 日志并找到特定搜索条件的相关流程。基本上我想做的是，假设我有一个 IP 地址或用户名，它首先执行一个非常简单的 grep 来尝试最小化我不需要的任何数据并将输出发送到外部文件。如果我正在搜索用户名testing1，那么它会对testing1执行grep并将输出发送到另一个名为output.txt的文件:

Dec  2 00:14:09 ftp1 ftpd[743]: USER testing1
Dec  2 00:14:09 ftp1 ftpd[743]: FTP LOGIN FROM 192.168.0.2 [192.168.0.2], testing1
Dec  2 00:30:08 ftp1 ftpd[1261]: USER testing1
Dec  2 00:30:09 ftp1 ftpd[1261]: FTP LOGIN FROM 192.168.0.4 [192.168.0.4], testing1
Dec  2 01:12:33 ftp1 ftpd[11804]: USER testing1
Dec  2 01:12:33 ftp1 ftpd[11804]: FTP LOGIN FROM 192.168.0.2 [192.168.0.2], testing1

下面是原始日志数据的示例:

Dec  1 23:59:03 ftp1 ftpd[4152]: USER testing1
Dec  1 23:59:03 ftp1 ftpd[4152]: PASS password  
Dec  1 23:59:03 ftp1 ftpd[4152]: FTP LOGIN FROM 192.168.0.02 [192.168.0.2], testing1  
Dec  1 23:59:03 ftp1 ftpd[4152]: PWD  
Dec  1 23:59:03 ftp1 ftpd[4152]: CWD /test/data/  
Dec  1 23:59:03 ftp1 ftpd[4152]: TYPE Image

然后我进去，将找到的所有 processID 以及该 ID 的时间放入哈希中。这就是您在下面看到的内容:

$VAR1 = {
      '743' => [
                 '00:1'
               ],
      '20687' => [
                   '01:3'
                 ],
      '27186' => [
                   '15:3'
                 ],
      '6929' => [
                  '12:0'
                ],
      '24771' => [
                   '09:0'
                 ],
      '11804' => [
                   '01:1'
                 ],
      '27683' => [
                   '08:3'
                 ],
      '14976' => [
                   '04:3'
                 ],
};

看起来时间好像被作为数组放入哈希中。我无法弄清楚为什么会发生这种情况，我决定将其作为数组使用。以下是数组哈希的创建方式:

# -------------------------------------------------------
# Extract PIDs and Time from lines, take out doubles
# -------------------------------------------------------
my $infile3 = 'output.txt';
my %pids;
my $found;
my $var;

open (INPUT2, $infile3) or die "Couldn't read $infile3.\n";

while (my $line = <INPUT2>) {
    if($line =~ /(\d{2})\:(\d)/ ) {
        my $hhmm = $1 . ":" . $2;
        if ($line =~ /ftpd\[(.*?)\]/) {
            $found = 0;
            foreach $var(keys %pids){
                if(grep $1 =~ $var, keys %pids){
                    $found = 1;
                }
            }
            if ($found == 0){
                push @{$pids{$1}}, $hhmm;

            }
        }       
    }

}

为了加快速度，我决定将所有具有匹配 PID 的行(无论它们是否适合流程)读取到一个数组中，这样我就不必继续读取原始文件。

##-------------------------------------------------------
## read each line from file into an array
##-------------------------------------------------------
open (INPUT, $infile2) or die "Couldn't read $infile2.\n";

my @messages;

while (my $line = <INPUT>){
    # if there is a match to the PID then put the line in the array
    if ($line =~ /ftpd\[(.*?)\]/){
        my $mPID = $1;
        foreach my $key (keys %pids){
            if ($key =~ $mPID){
                push @messages, $line;
            }
        }  
    }
}

我现在正在尝试将线路与 PID 和时间相匹配以获取流量。我只是在时间上匹配 hh:m，以便有更多机会获得整个流，并且因为具有相同时间范围的 PID 的其他流的机会非常小。最终所有这些结果将被发送到内部网页。

# -------------------------------------------------------
#find flow based on PID that was found from criteria
#-------------------------------------------------------

foreach my $line(@messages){
    if(my($pid) = $line =~ m{ \[ \s*(\d+) \]: }x) {
        if($line =~ /(\d{2})\:(\d)/){
            my $time = $1 . ":" . $2;
            if ($pids{$pid}[0] =~ /$time/){
                 push $pids{$pid}[0], $line;
            }
        }
    }
}

现在，由于某种原因，上面的代码实际上是在匹配时从哈希中删除时间。我不确定为什么会发生这种情况。

我能够使用 bash 脚本，但花了几十年才完成。感谢这里人们的建议，我决定用 Perl 来解决这个问题，所以我基本上是在参加速成类。我已经阅读了我能读到的所有内容，并且具备了基本的 C++ 编程技能，但显然仍然需要大量工作。我还使用数组让它工作，但它再次变得非常慢，并且我得到了很多与进程 ID 匹配的流，但不是我正在寻找的流。因此，在进一步的建议之后，我决定使用哈希，将进程 ID 作为键，引用该键的特定时间，然后在日志中将该键和时间作为流程的行。我已经对此有多个问题，但 A. 没有清楚地解释自己，B. 在我学习的过程中一直在尝试不同的事情。但郑重声明，这里的每个人都给了我很大的帮助，我希望有一天我也能为这个名单上的其他人做同样的事情。出于某种原因，我无法通过我厚厚的头骨得到这些东西。

无论如何，希望我涵盖了所有内容，我确信我开始对所有这些问题感到不安，所以我深表歉意。

更新:

嗯，我想我想出了如何使其全部散列，但看起来不正确。我将 Push @{$pids{$1}}, $hhmm; 更改为 $pids{$1}{$x} = $hhmm; ，它创建了以下内容:

$VAR1 = {
          '743' => {
                     '' => '00:1'
                   },
          '20687' => {
                       '' => '01:3'
        },

但它看起来引用不正确，所以当我 print $pids{743}; 时，它打印的只是 HASH(0x4caf10)

更新:

好的，我可以通过将 @{$pids{$1}}, $hhmm; 更改为 $pids{$1} = $hhmm;< 将所有值放入哈希中 似乎有效:

$VAR1 = {
          '743' => '00:1',
          '20687' => '01:3',
};

但是现在我如何检查值“00:1”是否与另一个变量匹配？这是我目前拥有的但不起作用:

if($pids{$pid} == qr/$time/){
    $pids{$pid}{$time}[$y] = $line;
    $y++;
};

这是匹配完成后的样子:

$VAR1 = {
          '743' => '00:1',
          '4771' => {
                      '23:5' => [
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: USER test
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: PASS password
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: FTP LOGIN FROM 192.168.0.2 [192.168.0.2], test
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: CWD /home/test/
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: TYPE Image
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: PASV
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: RETR test
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: QUIT
',
                                  'Dec  1 23:59:23 ftp1 ftpd[4771]: FTP session closed
'
                                ]
                    },

最佳答案

您的代码中有几个错误。

第一个是您只提取分钟的一位数字:

    if($line =~ /(\d{2})\:(\d)/ ) {

应该是

    if($line =~ /(\d{2})\:(\d{2})/ ) {

如果我正确地解释了您代码的意图，那么您正在尝试找出答案您是否已经看到给定 pid 的时间，以便您只需设置它第一次。如果是这样，则不需要循环遍历 %pid 中的所有键来做这个。您真正需要做的就是

        if ($line =~ /ftpd\[(.*?)\]/) {
            $pid{$1}[0] = $hhmm unless exists $pid{$1};
        }

请注意，我正在执行任务而不是推送，所以我会结束与数组引用的第一个元素中的时间。

我认为您可能想在下面输入“==”而不是“=~”:

            if(grep $1 =~ $var, keys %pids){

大概您需要捕获的信息不仅仅是时间，例如用户名，传输类型等，因此您可能会发现在 pid 下使用散列引用而不是数组引用更好。这样您就可以标记并轻松找到您的信息:

        my $pid = $1;
        if ($line =~ /ftpd\[(.*?)\]/) {
            $pid{$pid}{time} = $hhmm unless exists $pid{$pid};
        }
        if ($line =~ /USER (\w+)/) {
            $pid{$pid}{user} = $1;
        }

当然，您需要根据对您的目的最有意义的内容进行索引，以加快搜索速度。例如，您可以保留按时间索引的第二个哈希:

           $time{$hhmm}{pid} = $pid;

甚至保留与给定用户关联的所有 pid 的列表

           push @{$user{$1}}, $pid;

关于arrays - 在 Perl 中使用 FTP 流中的哈希值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23067611/

文章推荐： tiff - 如何找出 FreeImage 中 TIFF 图像的压缩情况？

文章推荐： Java:按钮单击事件输出到服务器时出错

文章推荐： java - IntelliJ IDEA 错过了模块中的测试

文章推荐： syntax - 在 Mathematica 中将控制定义为变量

java - 如何解析名称=值^^名称=值^^名称=值
我的问题:非常具体。我正在尝试想出解析以下文本的最简单方法: ^^domain=domain_value^^version=version_value^^account_type=account_ty
Python:尝试创建与(或(值，值，值))的等价物
好吧，这就是我的困境: 我正在为 Reddit 子版 block 开发常见问题解答机器人。我在 bool 逻辑方面遇到了麻烦，需要一双更有经验的眼睛(这是我在 Python 中的第一次冒险)。现在，该
excel - 如何使循环同时运行所有 X 和 Y 值，现在它运行所有 Y 值，然后运行所有 X 值
它首先遍历所有 y 值，然后遍历所有 x 值。我需要 X 和 y 同时改变。 For x = 3 To lr + 1 For y = 2 To lr anyl.Cells(x, 1)
excel - SUMIF(条件，值)、SUMPROD(条件，值)和 SUM(条件*值)之间的区别
假设我有一个包含 2 列的 Excel 表格:单元格 A1 到 A10 中的日期和 B1 到 B10 中的值。我想对五月日期的所有值求和。我有3种可能性: {=SUM((MONTH(A1:A10)=
python - 将 Z 值(Z 值，标准分数)转换为 Python 中正态分布的 p 值
如何转换 Z-score来自 Z-distribution (standard normal distribution, Gaussian distribution)到 p-value ?我还没有找到
javascript( bool 值 ^ bool 值)
我正在重写一些 Javascript 代码以在 Excel VBA 中工作。由于在这个网站上搜索，我已经设法翻译了几乎所有的 Javascript 代码!但是，有些代码我无法准确理解它在做什么。这是一
php - 在php中的数组内添加新的键，值(值= 1)
我遇到过包含日期格式的时间戳日期的情况。然后我想构建一个图表，显示“点击”项目的数量“每天”， //array declaration $array1 = array("Date" => 0); $a
scala - Option(值)和Some(值)之间的差异
我是scala的新手! 我的问题是，是否有包含成员的案例类 myItem:Option[String] 当我构造类时，我需要将字符串内容包装在: Option("some string") 要么 So
php - 从表中选择 * 其中列 = 值 ^ column2 = 值
我正在用 PHP 创建一个登录系统。我需要用户使用他或她的用户名或电子邮件或电话号码登录然后使用密码。因为我知道在 Java 中我们会像 email==user^ username == user 这
c++ - WHERE 列 = 值，仅适用于 INTEGER 值
我在 C++ 项目上使用 sqlite，但是当我在具有文本值的列上使用 WHERE 时出现问题我创建了一个 sqlite 数据库: CREATE TABLE User( id INTEGER
c++ - 类类名(值)；和类类名=值；显式构造函数时的区别
当构造函数是显式时，它不用于隐式转换。在给定的代码片段中，构造函数被标记为 explicit。那为什么在 foo obj1(10.25); 情况下它可以工作，而在 foo obj2=10.25; 情况
c# - : if(! 值) 或 if(flag == 值) 哪个更清晰？
我知道这是一个主观问题，所以如果需要关闭它，我深表歉意，但我觉得它经常出现，让我想知道是否普遍偏爱一种形式而不是另一种形式。显然，最好的答案是“重构代码，这样你就不需要测试是否存在错误”，但有时没有
jquery - [属性~=值] 和 [属性*=值] 有什么区别？
这两个 jQuery 选择器有什么区别？以下是来自 w3schools.com 的定义: [attribute~=value] 选择器选择带有特定属性，其值包含特定字符串。 [attribute*=
CSS [属性|=值] 与 [属性*=值] 选择器
为什么我们需要CSS [attribute|=value] Selector根本当 CSS3 [attribute*=value] Selector基本上完成相同的事情，浏览器兼容性几乎相似？是否存在
java - 正则表达式仅验证 0 值。要验证的单个 0 值
我正在解决 regx 问题。我已经有一个像这样的 regx [0-9]*([.][0-9]{2})。这是 amont 格式验证。现在，通过此验证，我想包括不应提供 0 金额。比如 10 是有效的，但
java - 尽管代码删除了 "0"值，但为什么列表中仍保留 "0"值？
我正在研究计算机科学 A 考试的样题，但无法弄清楚为什么以下问题的正确答案是正确的。考虑以下方法。 public static void mystery(List nums) { for (
perl - 基本的 Perl 散列排序键，值，但也键 AND 值
好的，我正在编写一个 Perl 程序，它有一个我收集的值的哈希值(完全在一个完全独立的程序中)并提供给这个 Perl 脚本。这个散列是 (string,string) 的散列。我想通过 3 种方式对
mysql - 根据其他两列选择一列的 MAX 值，其中一列具有 MAX 值
我有一个表数据如下，来自不同的表。仅当第三列具有值“债务”并且第一列(日期)具有最大值时，我才想从第四列中获取最大值。最终值基于 MAX(DATE) 而不是 MAX(PRICE)。所以用简单的语言来说
php - 代码仅更新数据库中的 false 值，但不更新 true 值
我有一个奇怪的情况，只有错误状态保存到数据库中。当“状态”应该为 true 时，我的查询仍然执行 false。我有具有此功能的 Controller public function change_a
mysql SUM(值) 其中 SUM(值) > 2500
我有一个交易表(针对所需列进行了简化): id client_id value 1 1 200 2 2 150 3 1

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

arrays - 在 Perl 中使用 FTP 流中的哈希值