gpt4 book ai didi

mysql - 使用 Regex 解析 Bash 脚本中的 ClamAV 日志以插入 MySQL

转载 作者:行者123 更新时间:2023-11-29 14:47:21 28 4
gpt4 key购买 nike

早上/晚上,

我遇到了一个问题,我正在制作一个使用 ClamAV 扫描恶意软件的工作脚本,然后使用 grep 和 awk 获取生成的 ClamAV 日志,将其结果放入 MySQL 中,以转换正确的部分记录到变量。我遇到的问题是,虽然我已经完成了摘要,但检测的语法使其变得稍微困难​​一些。我无论如何都不是正则表达式方面的专家,这是一次学习经历,所以可能有比我更好的方法!

我尝试解析的行如下所示:

/net/nas/vol0/home/recep/SG4rt.exe: Worm.SomeFool.P FOUND
/net/nas/vol0/home/recep/SG4rt.exe: moved to '/srv/clamav/quarantine/SG4rt.exe'
据我所知,我需要一个积极的向后查找来匹配冒号之后和之前发生的事情,而不是实际匹配冒号或其之后的空格,而且我看不到明确的方法来自 RegExr 而不认为我正在尝试寻找两个冒号。更糟糕的是,我们有时也会得到这些......

WARNING: Can't open file /net/nas/vol0/home/laser/samples/sample1.avi: Permission denied

最终结果是,我可以构建一个 MySQL 查询,插入路径、发现的恶意软件以及移动到的位置,或者如果存在错误,则插入路径,然后插入遇到的错误,以便将每个元素转换为变量while 语句中的内容。

我已完成扫描摘要如下:

摘要如下:

----------- SCAN SUMMARY -----------
Known viruses: 329
Engine version: 0.97.1
Scanned directories: 17350
Scanned files: 50342
Infected files: 3
Total errors: 1
Data scanned: 15551.73 MB
Data read: 16382.67 MB (ratio 0.95:1)
Time: 3765.236 sec (62 m 45 s)

像这样解析:

SCANNED_DIRS=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Scanned directories" | awk '{gsub("Scanned directories: ", "");print}')
SCANNED_FILES=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Scanned files" | awk '{gsub("Scanned files: ", "");print}')
INFECTED=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Infected files" | awk '{gsub("Infected files: ", "");print}')
DATA_SCANNED=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Data scanned" | awk '{gsub("Data scanned: ", "");print}')
DATA_READ=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Data read" | awk '{gsub("Data read: ", "");print}')
TIME_TAKEN=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Time" | awk '{gsub("Time: ", "");print}')
END_TIME=$(date +%s)
mysql -u scanner_parser --password=removed sc_live -e "INSERT INTO bs.live.bs_jobstat VALUES (NULL, '$CURRTIME', '$PID', '$IY', '$SCANNED_DIRS', '$SCANNED_FILES', '$INFECTED', '$DATA_SCANNED', '$DATA_READ', '$TIME_TAKEN', '$END_TIME');"
rm -f /srv/clamav/$IY-scan-$LOGTIME.log

其中一些变量来自脚本的其他部分,可以忽略。我这样做的原因是为了避免日志文件困惑,并获得一个基于 Web 的系统状态简单概述。

有什么线索吗?我是否以错误的方式处理这一切?提前感谢您的帮助,我非常感激!

最佳答案

从我从问题中可以确定的情况来看,您似乎在问如何区分您想要的行与以 WARNING、ERROR、INFO 开头的记录器行。

您可以做到这一点,而无需考虑前瞻或后瞻。只需 grep 查找以开头

的行
"/net/nas/vol0/home/recep/SG4rt.exe: "

然后使用 awk 可以提取该行的其余部分。或者您可以像在摘要处理部分中那样 gsub 去掉前缀。

就处理摘要的问题而言,最让我印象深刻的是您多次处理整个文件,每次都拉出一种行。对于这样的任务,我将使用 Perl、Ruby 或 Python 并遍历文件,收集冒号后的每一行片段,将它们存储在常规编程语言变量(不是环境变量)中,并形成 MySQL 插入使用插值的字符串。

Bash 在某些方面非常有用,但恕我直言,您有理由使用更通用的脚本语言(例如 Perl、Python、Ruby)。

关于mysql - 使用 Regex 解析 Bash 脚本中的 ClamAV 日志以插入 MySQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6661839/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com