gpt4 book ai didi

regex - 我的正则表达式是错误的还是 td-agent 的格式行为中存在错误行为?

转载 作者:行者123 更新时间:2023-11-29 02:56:27 25 4
gpt4 key购买 nike

我正在使用 fluentd、elasticsearch 和 kibana 来组织日志。不幸的是,这些日志不是使用像 apache 这样的任何标准编写的,所以我不得不自己想出格式的正则表达式。我在这里使用这个网站来验证它们是否正常工作:http://fluentular.herokuapp.com/ .

这里的日志大致是这样的格式:

DEBUG:  24.04.2014 16:00:00 [SingleActivityStrategy] Start Activitiy 'barbecue' zu verabeiten.

我使用的格式正则表达式如下:

format /(?<pri>([INFO]|[DEBUG]|[ERROR])+)...(?<date>(\d{2}\.\d{2}\.\d{4})).(?<time>(\d{2}:\d{2}:\d{2})).\[(?<subject>(.*))\].(?<msg>(.*))/ 

现在,从那个应该用正则表达式专门测试 fluentd 行为的网站来看,输出应该是这个:

Record
Key Value
pri DEBUG
date 24.04.2014
subject SingleActivityStrategy
msg Start Activitiy 'barbecue' zu verabeiten.

相反,我有这个 ?bug? pri 总是缩写为 DEBU。对于变成 ERRO 的 ERROR 也是如此,只有 INFO 保持 INFO。我对正则表达式不是很有经验,我很难相信这是一个错误,但它仍然让我感到困惑,非常感谢任何帮助。

我不确定我是否可以链接完整的配置文件,因为我个人并不拥有这些日志文件,并且我试图将其保持在一个水平,这样我的老板就不会因为我发布敏感信息而生我的气,但应该它肯定是需要的,我会在问他我可以透露多少之后稍后发布它们。

一般而言,日志总是大致如下所示:首先是优先级,可以是 DEBUG、ERROR 或 INFO,接下来是日期,接下来是我们所说的主题,它总是写在 [ ] 中,最后只是一条消息。

这是一个流利的链接,我正在使用的格式和一个在流利的情况下产生正确结果的测试字符串,但不在我的配置文件中:

Fluentular

抱歉,我无法让它像普通链接一样工作,只需点击即可。

另一个用我的格式和测试字符串测试正则表达式的链接是这个:

http://rubular.com/r/dfXOkQYNXP

tl;dr 版本:

我的 td-agent 格式正则表达式切断了最后一个字母,尽管 fluentular 说它不应该。我的错还是错误?

最佳答案

如果您尝试专门匹配数据,正则表达式将如何显示:

(INFO|DEBUG|ERROR)\:\s+(\d{2}\.\d{2}\.\d{4})\s(\d{2}:\d{2}:\d{2})\s\[(.*)\](.*)

在您的 format 字符串中,您使用了 .... 作为您的空格和冒号所在的位置。我不确定为什么这在 Fluentular 中有效,但您应该明确匹配 \: 以及值之间的每个空格。

因此您将查看以下正则表达式 Fluentd 字段(分组名称):

(?<pri>(INFO|ERROR|DEBUG))\:\s+(?<date>(\d{2}\.\d{2}\.\d{4}))\s(?<time>(\d{2}:\d{2}:\d{2}))\s\[(?<subject>(.*))\]\s(?<msg>(.*))

意思是你的 td-agent.conf 应该是这样的:

<source> 
type tail
path /var/log/foo/bar.log
pos_file /var/log/td-agent/foo-bar.log.pos
tag foo.bar
format /(?<pri>(INFO|ERROR|DEBUG))\:\s+(?<date>(\d{2}\.\d{2}\.\d{4}))\s(?<time>(\d{2}:\d{2}:\d{2}))\s\[(?<subject>(.*))\]\s(?<msg>(.*))/
</source>

我还会看一下 Logstash 与 Fluentd 的比较。我更喜欢 Logstash,因为您可以创建 Grok 过滤器来匹配您想要的数据类型,并且由于您提供了一个抽象层,所以它可以更轻松地格式化您的字段,但您基本上会得到相同的数据。

当您使用像 Rubular 这样的网站时,我会小心,因为它们对多行匹配等非常讲究。我建议像 Regexr 这样的东西它提供即时反馈,您还可以设置 globalmultiline 匹配。

关于regex - 我的正则表达式是错误的还是 td-agent 的格式行为中存在错误行为?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23368178/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com