json - Datadog Grok 解析 - 从嵌套的 JSON 中提取字段-6ren

json - Datadog Grok 解析 - 从嵌套的 JSON 中提取字段

转载作者：行者123 更新时间：2023-12-04 01:24:50

24

4

是否可以提取嵌套在日志中的 json 字段？

我一直在研究的示例:

thread-191555 app.main - [cid: 2cacd6f9-546d-41ew-a7ce-d5d41b39eb8f, uid: e6ffc3b0-2f39-44f7-85b6-1abf5f9ad970] Request: protocol=[HTTP/1.0] method=[POST] path=[/metrics] headers=[Timeout-Access: <function1>, Remote-Address: 192.168.0.1:37936, Host: app:5000, Connection: close, X-Real-Ip: 192.168.1.1, X-Forwarded-For: 192.168.1.1, Authorization: ***, Accept: application/json, text/plain, */*, Referer: https://google.com, Accept-Language: cs-CZ, Accept-Encoding: gzip, deflate, User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko, Cache-Control: no-cache] entity=[HttpEntity.Strict application/json {"type":"text","extract": "text", "field2":"text2","duration": 451 }

我想要实现的是:

{
"extract": "text",
"duration": "451"
}

我尝试将示例正则表达式 ( "(extract)"\s*:\s*"([^"]+)",? ) 与 example_parser %{data::json} 结合起来(对于初学者，使用 JSON 作为日志示例数据)但我没有设法使任何工作。

提前致谢!

最佳答案

该示例文本的格式是否正确？最终的实体对象缺少 ]从最后。
entity=[HttpEntity.Strict application/json {"type":"text","extract": "text", "field2":"text2","duration": 451 }
应该
entity=[HttpEntity.Strict application/json {"type":"text","extract": "text", "field2":"text2","duration": 451 }]
假设这是一个错字，并且实体字段实际上以 ] 结尾，我将继续这些说明。 .如果没有，我认为您需要修复基础日志以正确格式化并关闭括号。

与其只是跳过整个日志并仅解析出那个 json 位，我决定解析整个内容并展示看起来不错的最终结果。所以我们需要做的第一件事就是在请求对象之后取出那组键/值对:

示例输入:thread-191555 app.main - [cid: 2cacd6f9-546d-41ew-a7ce-d5d41b39eb8f, uid: e6ffc3b0-2f39-44f7-85b6-1abf5f9ad970] Request: protocol=[HTTP/1.0] method=[POST] path=[/metrics] headers=[Timeout-Access: <function1>, Remote-Address: 192.168.0.1:37936, Host: app:5000, Connection: close, X-Real-Ip: 192.168.1.1, X-Forwarded-For: 192.168.1.1, Authorization: ***, Accept: application/json, text/plain, */*, Referer: https://google.com, Accept-Language: cs-CZ, Accept-Encoding: gzip, deflate, User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko, Cache-Control: no-cache] entity=[HttpEntity.Strict application/json {"type":"text","extract": "text", "field2":"text2","duration": 451 }]
Grok 解析器规则:app_log thread-%{integer:thread} %{notSpace:file} - \[%{data::keyvalue(": ")}\] Request: %{data:request:keyvalue("=","","[]")}
结果:

{
  "thread": 191555,
  "file": "app.main",
  "cid": "2cacd6f9-546d-41ew-a7ce-d5d41b39eb8f",
  "uid": "e6ffc3b0-2f39-44f7-85b6-1abf5f9ad970",
  "request": {
    "protocol": "HTTP/1.0",
    "method": "POST",
    "path": "/metrics",
    "headers": "Timeout-Access: <function1>, Remote-Address: 192.168.0.1:37936, Host: app:5000, Connection: close, X-Real-Ip: 192.168.1.1, X-Forwarded-For: 192.168.1.1, Authorization: ***, Accept: application/json, text/plain, */*, Referer: https://google.com, Accept-Language: cs-CZ, Accept-Encoding: gzip, deflate, User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko, Cache-Control: no-cache",
    "entity": "HttpEntity.Strict application/json {\"type\":\"text\",\"extract\": \"text\", \"field2\":\"text2\",\"duration\": 451 }"
  }
}

请注意我们如何使用带有 [] 引用字符串的键值解析器。，这使我们可以轻松地从请求对象中提取所有内容。

现在的目标是从请求对象内的实体字段中提取详细信息。使用 Grok 解析器，您可以指定要进一步解析的特定属性。

所以在同一个管道中，我们将在第一个之后添加另一个 grok 解析器处理器

然后将高级选项部分配置为在 request.entity 上运行，因为这就是我们所说的属性

示例输入: HttpEntity.Strict application/json {"type":"text","extract": "text", "field2":"text2","duration": 451 }
Grok 解析器规则: entity_rule %{notSpace:request.entity.class} %{notSpace:request.entity.media_type} %{data:request.entity.json:json}
结果:

{
  "request": {
    "entity": {
      "class": "HttpEntity.Strict",
      "media_type": "application/json",
      "json": {
        "duration": 451,
        "extract": "text",
        "type": "text",
        "field2": "text2"
      }
    }
  }
}

现在，当我们查看最终解析的日志时，它包含了我们需要分解的所有内容:

也只是因为它真的很简单，我还为标题块添加了第三个 grok 处理器(高级设置设置为从 request.headers 解析):

示例输入:

Timeout-Access: <function1>, Remote-Address: 192.168.0.1:37936, Host: app:5000, Connection: close, X-Real-Ip: 192.168.1.1, X-Forwarded-For: 192.168.1.1, Authorization: ***, Accept: application/json, text/plain, */*, Referer: https://google.com, Accept-Language: cs-CZ, Accept-Encoding: gzip, deflate, User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko, Cache-Control: no-cache

Grok 解析器规则: headers_rule %{data:request.headers:keyvalue(": ", "/)(; :")}
结果:

{
  "request": {
    "headers": {
      "Timeout-Access": "function1",
      "Remote-Address": "192.168.0.1:37936",
      "Host": "app:5000",
      "Connection": "close",
      "X-Real-Ip": "192.168.1.1",
      "X-Forwarded-For": "192.168.1.1",
      "Accept": "application/json",
      "Referer": "https://google.com",
      "Accept-Language": "cs-CZ",
      "Accept-Encoding": "gzip",
      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko",
      "Cache-Control": "no-cache"
    }
  }
}

这里唯一棘手的一点是我必须定义一个 /)(; : 的 characterWhiteList .主要处理所有这些特殊字符在 User-Agent 中。 field 。

引用文献 :

只是文档和一些猜测并检查我的个人 Datadog 帐户。

https://docs.datadoghq.com/logs/processing/parsing/?tab=matcher#key-value-or-logfmt

关于json - Datadog Grok 解析 - 从嵌套的 JSON 中提取字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62092243/

24

4

0

文章推荐： visual-studio - 如何使用 NSIS 安装 Visual C++ Redist

文章推荐： reactjs - 函数返回类型与 TypeScript 不匹配

文章推荐： javascript - 一种用 Webpack 循环 HTMLWebpackPlugin 的干净方法？

regex - GROK 模式适用于 GROK 调试器，但不适用于 Logstash GROK
我有一个 GROK 模式，我正尝试在 Logstash 中使用它，它在 GROK 调试器中工作 website但不在日志存储中。我尝试了不同的配置但没有成功。我希望有人可以帮助我确定为什么这不起作用。
logstash-grok - Logstash - grok 重命名字段名称
以下是事件消息的示例: { "timestamp":"2016-03-29T22:35:44.770750-0400", "flow_id":45385792, "in_iface":"eth1",
logstash-grok - 可选字段的 GROK 模式
我有一个像这样的日志字符串: 2018-08-02 12:02:25.904 [http-nio-8080-exec-1] WARN o.s.w.s.m.s.DefaultHandlerExcept
logstash-grok - Logstash - grok 重命名字段名称
以下是事件消息的示例: { "timestamp":"2016-03-29T22:35:44.770750-0400", "flow_id":45385792, "in_iface":"eth1",
logstash-grok - 可选字段的 GROK 模式
我有一个像这样的日志字符串: 2018-08-02 12:02:25.904 [http-nio-8080-exec-1] WARN o.s.w.s.m.s.DefaultHandlerExcept
grok - 使用多个 grok 模式为 1 个字段赋值
我的问题是关于如何使用 Grok 模式。我知道给定的现有 Grok 模式，我可以使用以下语法将值分配给字段: %{DATESTAMP_RFC822:timestamp} 我也知道我可以创建自己的自定
tomcat - tomcat 日志的 Grok 模式在 Grok Debugger 上给出编译错误
我正在尝试为 Java 应用程序设置 ELK。 tomcat 日志是使用 log4j 生成的。要编写测试模式，我使用 Grok Debugger .但是在调试器上它总是显示 Compile ERROR
Logstash grok 方括号
我正在尝试使用某种 grok 模式来使用以下日志记录格式: *Sun 07:05:18.372 INFO [main] [userID] perf - 0ms - select x from y 我
regex - GROK 正则表达式捕获组不匹配
我正在尝试学习如何第一次使用 logstash 的 grok 过滤器捕获日志文件中的不同字段，但无法正确解析它。我正在使用 https://grokdebug.herokuapp.com/来测试我的工
elasticsearch - grok 不读带连字符的单词
这是我的 grok 模式 2017-09-25 08:58:17,861 p=14774 u=ec2-user | 14774 1506329897.86160:检查 any_errors_fatal
logstash - 如何加速logstash模式匹配(grok)？
我有一个 200 MB 的日志文件。我将日志文件输入logstash，需要几个小时才能完成工作。我想知道是否有办法加快速度？也许以并行模式运行它？最佳答案您可以看看here关于如何加快速度。 T
Logstash grok 过滤器不适用于最后一个字段
在 Logstash 2.3.3 中，grok 过滤器不适用于最后一个字段。要重现该问题，请创建 test.conf，如下所示: input { file { path => "/Use
logstash - GROK 中的日志级别模式
我是 logstash 和 grok 的新手，对模式有疑问。我正在尝试为我的 apache 错误日志创建一个 grok 模式。但是我对以下行为有点困惑。如果我在 http://grokdebug.h
用于特殊字符的 Logstash grok
以下是我的日志 # Time: 2017-11-02T07:41:22.631956Z# User@Host: root[root] @ localhost [] Id: 我无法为单词 ro
logstash grok 过滤烦恼
2012 年 9 月 27 日星期四 15:30:27 BST:- 无效 token $_POST[custom]，指示金额、用户 ID 这是来 self 尝试使用 grok 解析 logstash
logstash grok 捕获重复模式
我有一个类似于以下的输入 2015-12-02T12:39:57.546461+08:00 222.55.201.19 c): start_time="2015-12-02 ...some other
logstash - GROK 中的日志级别模式
我是 logstash 和 grok 的新手，对模式有疑问。我正在尝试为我的 apache 错误日志创建一个 grok 模式。但是我对以下行为有点困惑。如果我在 http://grokdebug.h
Logstash grok 多次匹配失败
我有这些日志，我试图使用 grok 从每一行中提取多个信息。但似乎有些匹配没有被考虑在内，尽管它们对我来说似乎很好。这是一个示例行: "#wtb# GetSP ok. Referer:http://
regex - Grok - 解析可选字段
我有来自 kafka 的数据，我想将它们发送到 ElasticSearch。我有一个这样的带有标签的日志: APPLI_A|PRF|ENV_1|003 我试图用 grok 解析它使用 grok 调试器
elasticsearch - Grok 没有正确匹配多行日志条目？
几周来我一直在做这件事，但我似乎无法理解这有什么问题。我试图让所有这些行适应与 grok 的多行匹配，但它只选择最后一行，甚至丢弃行开头的数字。 11:31:03.936 5: Loa

首页

博学

6Ren·AI

商城

json - Datadog Grok 解析 - 从嵌套的 JSON 中提取字段