regex - Perl 正则表达式对带或不带引号的项目进行分组并忽略空格-6ren

regex - Perl 正则表达式对带或不带引号的项目进行分组并忽略空格

转载作者：行者123 更新时间：2023-12-03 10:58:03

27

4

我有一些数据库信息被提取到临时日志中。我需要编写一个正则表达式来解析它，以便将其输入分析程序。我需要按如下方式对每个“字段”进行分组:

YYYY-MM-DD HH:MM:SS
设施
严重性
服务器
YYYY-MM-DD: HH:MM:SS
时区
IP 地址
旧电子邮件地址
名字(**可以包含也可以不包含用引号括起来的几个词)
姓氏(**可以包含也可以不包含用引号括起来的几个单词)
帐号
程序代码
UID
电子邮件地址
事件类型
来源
类别

我几乎有了正则表达式，但在对字段进行分组时遇到问题。特别是 FirstName 和 LastName。理想情况下，我希望将这些捕获到两个字段中(如果存在引号，则去掉引号)，但将 FirstName 和 LastName 合并为一个也很好。

当前正则表达式的问题是，虽然它将 FirstName 和 LastName 分组到一个字段中(不理想但可以接受)，但似乎有一个额外的字段捕获一个空格。

这是我试图到达那里的正则表达式:

^(\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2})\s+(\S+)\.(\S+)\s+(\S+)\s+(\d{4}-\d{2}-\d{2}:\s\d{2}:\d{2}:\d{2})\s+(.*?)\s+(.*?)\s+(.*?)\s+(?<!")(.*)(?!")\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)$

以下是一些示例事件:

2016-01-29 18:19:54 local1.info server.domain.com 2016-01-29: 11:19:54 MST UNKNOWN UNKNOWN FOO "BAR BAZ" UNKNOWN UNKNOWN UNKNOWN EMAIL@EXAMPLE.COM PROFILE_CHANGE ProfileChangeProcessor A
2016-01-29 18:20:25 local4.info server.domain.com 2016-01-29: 11:20:25 MST UNKNOWN UNKNOWN "F B" BAZ ABC12345 GP SOME_UID EMAIL@EXAMPLE.COM EVENT_FROM_SOME_PROCESS UNKNOWN UNKNOWN
2016-01-29 18:23:10 local1.info server.domain.com 2016-01-29: 11:23:10 MST UNKNOWN UNKNOWN FOO BAR UNKNOWN UNKNOWN UNKNOWN EMAIL@EXAMPLE.COM SOME_CHANGE ProfileChangeProcessor AP
2016-01-29 18:26:24 local1.info server.domain.com 2016-01-29: 11:26:24 MST UNKNOWN EMAIL@EXAMPLE.COM FOO "B'Baz" UNKNOWN UNKNOWN UNKNOWN  SOME_CHANGE ProfileChangeProcessor O
2016-01-29 18:26:55 local1.info server.domain.com 2016-01-29: 11:26:55 MST UNKNOWN EMAIL@EXAMPLE.COM "FOO OR BAR" BAZ SXR12646 GP UNKNOWN  SOME_CHANGE ProfileChangeProcessor M

这是我通过 Perl 内联表达式运行它时的输出:

$ cat foo.txt | perl -ne '/^(\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2})\s+(\S+)\.(\S+)\s+(\S+)\s+(\d{4}-\d{2}-\d{2}:\s\d{2}:\d{2}:\d{2})\s+(.*?)\s+(.*?)\s+(.*?)\s+(?<!")(.*)(?!")\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)\s+(.*)$/ && print "$1|$2|$3|$4|$5|$6|$7|$8|$9|$10|$11|$12|$13|$14|$15|$16|\n"' 

2016-01-29 18:19:54|local1|info|server.domain.com|2016-01-29: 11:19:54|MST|UNKNOWN|UNKNOWN|FOO "BAR BAZ"|UNKNOWN|UNKNOWN|UNKNOWN|EMAIL@EXAMPLE.COM|PROFILE_CHANGE|ProfileChangeProcessor|A|
2016-01-29 18:20:25|local4|info|server.domain.com|2016-01-29: 11:20:25|MST|UNKNOWN|UNKNOWN|"F B" BAZ|ABC12345|GP|SOME_UID|EMAIL@EXAMPLE.COM|EVENT_FROM_SOME_PROCESS|UNKNOWN|UNKNOWN|
2016-01-29 18:23:10|local1|info|server.domain.com|2016-01-29: 11:23:10|MST|UNKNOWN|UNKNOWN|FOO BAR|UNKNOWN|UNKNOWN|UNKNOWN|EMAIL@EXAMPLE.COM|SOME_CHANGE|ProfileChangeProcessor|AP|
2016-01-29 18:26:24|local1|info|server.domain.com|2016-01-29: 11:26:24|MST|UNKNOWN|EMAIL@EXAMPLE.COM|FOO "B'Baz"|UNKNOWN|UNKNOWN|UNKNOWN||SOME_CHANGE|ProfileChangeProcessor|O|
2016-01-29 18:26:55|local1|info|server.domain.com|2016-01-29: 11:26:55|MST|UNKNOWN|EMAIL@EXAMPLE.COM|"FOO OR BAR" BAZ|SXR12646|GP|UNKNOWN||SOME_CHANGE|ProfileChangeProcessor|M|

使用上述正则表达式时的当前问题在于最后两条记录。在第 13 组中，有一个空字段。我不确定如何解释这一点。如果我无法获得输出数据的字段，则无法将其正确加载到分析引擎中。总的来说，我正在寻找是否有更好的方法根据我概述的内容对字段进行分组，并确保不存在空格(或类似字符)的分组。

最佳答案

这是我要做的:

^\s*
# date
(?<date>\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2})
# facility.severity
\s(?<facility>\S+)\.(?<severity>\S+)
# server
\s(?<server>\S*)
# date
\s(?<otherDate>\d{4}-\d{2}-\d{2}:\s\d{2}:\d{2}:\d{2})
# time zone
\s(?<timeZone>\S*)
# ip address
\s(?<ip>\S*)
# legacy email address
\s(?<legacyEmailAddress>\S*)
# first name
\s(?|"(?<firstName>[^"\n]+)"|(?<firstName>\S*))
# last name
\s(?|"(?<lastName>[^"\n]+)"|(?<lastName>\S*))
# account number
\s(?<account>\S*)
# program code
\s(?<programCode>\S*)
# uid
\s(?<uid>\S*)
# email address
\s(?<emailAddress>\S*)
# event type
\s(?<eventType>\S*)
# source
\s(?<source>\S*)
# category
\s(?<category>\S*)
\s*$

Demo with your sample data

首先，当你有这样的模式时，你必须使用x修饰符，以便您可以将空格放入表达式中
然后，$13 是什么意思？无论如何？为您的捕获组命名，这样更好。
因为您可以有空字段，所以我假设字段之间恰好有一个空白分隔符。你不能真的绕过那个
添加比 \S* 更具体的规则不会有什么坏处，但这取决于你
至于名称，格式是:(?|"(?<name>[^"\n]+)"|(?<name>\S*))
- (?| ... )是 branch reset group .它允许您在其每个备选方案中重复使用相同的捕获组编号或名称
- "(?<name>[^"\n]+)"捕获引用的名称
- (?<name>\S*)捕获一个不带引号的名称...只有其中一个可以匹配，它们将进入同一个捕获组。

关于regex - Perl 正则表达式对带或不带引号的项目进行分组并忽略空格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35099189/

27

4

0

文章推荐： list - 在 Prolog 中展平列表

文章推荐： javascript - 移动设备上的 iFrame 重定向主页问题

文章推荐： javascript - PHP Ajax错误，输入第一个字符时得到404

文章推荐： performance - TLB 未命中与缓存未命中？

SQL ORDER BY 带 CASE 带 UNION ALL
运行 PostgreSQL(7.4 和 8.x)，我认为这是可行的，但现在我遇到了错误。我可以单独运行查询，它工作得很好，但如果我使用 UNION 或 UNION ALL，它会抛出错误。这个错误:
java - 带 fragment 的抽屉导航(带 ViewPager)重新打开时消失
我试图为我的应用程序创建一个导航，使用抽屉导航我的 fragment 之一(HomeFragment)有一个 ViewPager，可容纳 3 个 fragment (Bundy Clock、Annou
android - 带 Activity 的抽屉导航和。带 fragment 的抽屉导航
以我目前正在开发的应用为例: - 它有一个包含多个项目的抽屉导航；现在有两个项目让我感兴趣，我将它们称为 X 和 Y。 X 和 Y 都在单击时显示包含 x 元素或 y 元素列表的 fragment 选
python - 如何将形状为(带、行、列)的数组重新整形为(行、列、带)？
我有一个形状为 (370,275,210) 的 NumPy 数组，我想将其重新整形为 (275,210,370)。我将如何在 Python 中实现这一点？ 370是波段数，275是行数，210是图像包
iphone - 无法与具有子 UIViewController(带 NIB)的父 UIViewController(带 NIB)交互
我们如何与被子 UIViewController 阻止的父 UIViewController(具有按钮)交互。显然，触摸事件不会通过子 Nib 。 (启用用户交互) 注意:我正在加载默认和自定义 NI
java - storeedProcedure.registerStoredProcedureParameter，带 out Parameter ref 光标，带 Jpa Eclipse Link
我是 Jpa 新手，我想执行过程我的代码如下 private static final String PERSISTENCE_UNIT_NAME = "todos"; private static
google-compute-engine - 带 LAMP 的 GCE VS 带 Cloud SQL 的 GCE
与安装了 LAMP 的 GCE 相比，选择与 Google Cloud SQL 链接的 GCE 实例有哪些优势？我确定 GCE 是可扩展的，但是安装在其上的 mysql 数据库的可扩展性如何？使用
带*点和不带指针的Golang类型方法？
这个问题在这里已经有了答案: Value receiver vs. pointer receiver (3 个答案) 关闭 3 年前。我刚接触 golang。只是想了解为 Calc 类型声明的两种
R - 日期和分界线的快捷方式，带# -----
我不小心按了一个快捷键，一个非常漂亮的断线出现在日期上。有点像 # 23 Jun 2010 -------------------- 有人知道有问题的快捷方式吗？？ (我在 mac 上工作!) 在
scala - 带$和字符串插值的Scala正则表达式
我正在Scala中编写正则表达式 val regex = "^foo.*$".r 这很好，但是如果我想做 var x = "foo" val regex = s"""^$x.*$""".r 现在我们有
带/不带命名空间的 XML
以下 XML 文档在技术上是否相同？ James Dean 19 和: James Dean 19 最佳答案这两个文档在语义上是相同的。在 X
带 lapply 的稳健线性回归
我在对数据帧列表运行稳健的线性回归模型(使用 MASS 库中的 rlm)时遇到问题。可重现的示例: var1 <- c(1:100) var2 <- var1*var1 df1 <- data.f
iphone - 带 $ 符号的自定义数字键盘
好的，我有一个自定义数字键盘，可以在标签(numberField)中将数字显示为 0.00，现在我需要它显示 $0.00。 NSString *digit = sender.currentTitle;
macos - 带 Storyboard的基于文档的应用程序自动保存
在基于文档的应用程序中，使用 XIB 文件，创建新窗口时其行为是: 根据最后一个事件的位置进行定位和调整大小 window 。如果最后一个事件窗口仍然可见，则新窗口窗口应该是级联的，这样它就不会直
sql - 带 in 子句的查询中的参数？
我想使用参数进行查询，如下所示: SELECT * FROM MATABLE WHERE MT_ID IN (368134, 181956) 所以我考虑一下 SELECT * FROM MATABLE
sql - 带/不带参数的性能问题
我遇到一些性能问题。我有一个大约有 200 万行的表。 CREATE TABLE [dbo].[M8]( [M8_ID] [int] IDENTITY(1,1) NOT NULL,
javascript - 带 (+) 键的按键功能不起作用
我在 jquery 中的按键功能遇到问题。我不知道为什么按键功能不起作用。我已经使用了正确的 key 代码。在我的函数中有 2 个代码，其中包含 2 个事件键，按一个键表示 (+) 代码 107 和(
android - 带.raw输入的音频波形
我想显示音频波形，我得到了此代码，它需要.raw音频输入并显示音频波形，但是当我放入.3gp，.mp3音频时，我得到白噪声，有人可以帮助我如何使其按需与.3gp一起使用使用.3gp音频运行它。 Inp
php - 带$的stristr
我无法让 stristr 函数返回真值，我相信这是因为我的搜索中有一个 $ 字符。当我这样做时: var_dump($nopricecart); 完整的 $nopricecart 值是 $0 ，我得
algorithm - 带 If 语句的循环的时间复杂度
如果我有这样的循环: for(int i=0;i O(n) 次。所以do some执行了O(n)次。如果做某事是线性时间，那么代码片段的复杂度是O(n^2)。关于algorithm - 带 If 语

首页

博学

6Ren·AI

商城

regex - Perl 正则表达式对带或不带引号的项目进行分组并忽略空格