elasticsearch - 如何在Logstash中解析tmx文件(用于翻译数据的xml文件)-6ren

elasticsearch - 如何在Logstash中解析tmx文件(用于翻译数据的xml文件)

转载作者：行者123 更新时间：2023-12-02 22:57:49

25

4

我在Logstash中将TMX文件(用于转换数据的xml文件)用作我的源，以在Elasticsearch中索引数据。

TMX文件示例如下所示，

<?xml version="1.0" encoding="UTF-8"?>
<tmx version="1.4">
  <header creationtool="ModernMT - modernmt.eu" creationtoolversion="1.0" datatype="plaintext" o-tmf="ModernMT" segtype="sentence" adminlang="en-us" srclang="en-GB"/>
  <body>
    <tu srclang="en-GB" datatype="plaintext" creationdate="20121019T114713Z">
  <tuv xml:lang="en-GB">
    <seg>The purpose of the standard is to establish and define the requirements for the provision of quality services by translation service providers.</seg>
  </tuv>
  <tuv xml:lang="it">
    <seg>L'obiettivo dello standard è stabilire e definire i requisiti affinché i fornitori di servizi di traduzione garantiscano servizi di qualità.</seg>
  </tuv>
</tu>
<tu srclang="en-GB" datatype="plaintext" creationdate="20111223T112746Z">
  <tuv xml:lang="en-GB">
    <seg>With 1,800 experienced and qualified resources translating regularly into over 200 language combinations, you can count on us for high quality professional translation services.</seg>
  </tuv>
  <tuv xml:lang="it">
    <seg>Abbiamo 1.800 professionisti esperti e qualificati che traducono regolarmente in oltre 200 combinazioni linguistiche; perciò, se cercate la qualità, potete contare su di noi.</seg>
  </tuv>
</tu>
<tu srclang="en-GB" datatype="plaintext" creationdate="20111223T112746Z">
  <tuv xml:lang="en-GB">
    <seg>Access our section of useful links</seg>
  </tuv>
  <tuv xml:lang="it">
    <seg>Da qui potrete accedere a una sezione che propone link a siti che possono essere di vostro interesse</seg>
  </tuv>
</tu>

我在这里需要做的是将每个 <tu>块作为一个事件来访问，其中两个 <tuv>块将用作数据字段。存储在第一个 tuv块中的数据将在ES中被索引为源语言数据字段，而存储在第二个 tuv块中的数据是目标语言数据字段。

一个TMX文档可以包含10000个以上的 tuv块。

我在使用xml过滤器时遇到了麻烦，现在看起来像这样，

input {
    file {
        path => "/en-gb_pt-pt/81384/81384.xml"
            start_position => "beginning"
        codec => multiline {
                pattern => "<tu>" 
                    negate => "true"
                    what => "previous"
        }
    }
}

filter {
    xml {
        source => "message"
            target => "xml_content"
            xpath => [ "//seg", "seg" ] 
    }
}

output {
    stdout {
            #codec => json
            codec => rubydebug
    }
}

这是我的索引模板的一部分，

"segment": {
            "_parent": {
                "type": "tm"
            },
            "_routing": {
              "required": "true"
            },
            "properties": {
                "@timestamp": {
                    "type": "date",
                    "format": "strict_date_optional_time||epoch_millis"
                },
                "@version": {
                    "type": "string"
                },
                "source": {
                    "type": "string",
                    "store": "true",
                    "fields": {
                        "length": { 
                            "type":     "token_count",
                            "analyzer": "standard"
                        }
                    }
                },
                "target": {
                    "type": "string",
                    "store": "true",
                    "fields": {
                        "length": { 
                            "type":     "token_count",
                            "analyzer": "standard"
                        }
                    }
                }
            }
        }

最佳答案

suggest建议使用grok或dissect过滤器的简单方法。

filter {
    dissect {
        mapping => { "message" => "%{}<seg>%{src}</seg>%{}<seg>%{trg}</seg>%{}" }
    }
    mutate {
       remove_field => ["message"]
    }
}

你会得到:

{
          "path" => "/en-gb_pt-pt/81384/81384.xml",
    "@timestamp" => 2017-08-25T15:07:34.567Z,
           "src" => "The purpose of the standard is to establish and define the requirements for the provision of quality services by translation service providers.",
      "@version" => "1",
          "host" => "my_host",
           "trg" => "L'obiettivo dello standard è stabilire e definire i requisiti affinché i fornitori di servizi di traduzione garantiscano servizi di qualità.",
          "tags" => [
        [0] "multiline"
    ]
}

关于elasticsearch - 如何在Logstash中解析tmx文件(用于翻译数据的xml文件)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45882173/

25

4

0

文章推荐： perl - 如何在Elasticsearch中排序 “sum of 3 properties”？

文章推荐： elasticsearch - 如何在ElasticSearch中搜索和分组？

文章推荐： audio - Corona sound_decode 触发错误

logstash - logstash 中的日志轮换
我在 logstash 中使用文件作为日志的输入。我的日志文件每天轮换，所以我想问一下我们如何配置 logstash 的文件插件，以便它可以处理每天轮换的文件。除此之外，文件节拍也可以进行日志轮换。
logstash - Logstash 是否对每个事件消息有限制大小？
我正在我公司服务的服务器上实现监控工具。为此，我正在使用 logstash。我们的应用程序通过 log4net udp appender 将它们的日志发送到 logstash(输入 udp)，然后 l
logstash - Logstash 中的数学函数
我期待对 Logstash 中收到的输入使用数学运算，但无法看到任何此类过滤器 . 输入如下: { "user_id": "User123", "date": "2016 Jun 26 12
logstash - logstash 可以同时处理多个输出吗？
我对 logstash 和 Elasticsearch 很陌生。我正在尝试将日志文件存储在 elasticsearch 和平面文件中。我知道 logstash 支持两种输出。但是它们是同时处理的吗？还
logstash - Logstash 过滤器入门
寻求一些入门帮助...我已经安装了 Logstash(以及 ElasticSearch)，但我正在为我的第一个过滤器而苦苦挣扎。作为测试，我将其配置为从包含 6 行的修剪日志文件中读取，每行以时间戳
logstash - Logstash 设置建议
我已经按照下面提到的架构实现了 logstash(在测试中)。成分分解 Rsyslog 客户端:默认情况下，所有 Linux destros 中都安装了 syslog，我们只需要配置 rsyslog
logstash - logstash 配置中的负正则表达式
我无法在 LogStash 中使用负正则表达式(如 the docs 中所述) 考虑以下正则表达式，它可以正常工作以检测已分配值的字段: if [remote_ip] =~ /(.+)/ {
logstash - Filebeat 无法连接到 logstash
我在云中使用两台服务器，在一台服务器上 (A) 我安装了 filebeat，在第二台服务器上 (B) 我安装了 logstash、elasticsearch 和 kibana。所以我在 logstas
logstash - 如何替换 Logstash 中字段中的字符串
我有一个来自 Windows 事件日志的 IP 地址字段，它在 IP 地址前面包含类似“::fffff:”的字符。我无法在此处更改源，因此我必须在 Logstash 中修复此问题。我一定很不擅长谷歌
logstash - 访问 logstash 中的数组元素
我正在尝试将此日期结构 YYYY-MM-DD_HH-MM-SS 转换为 logstash 中的 YYYY-MM-DD HH:MM:SS。这是我的过滤器: filter { csv {
logstash - 在 Logstash 中提取字段
我正在使用 Logstash(以 Kibana 作为 UI)。我想从我的日志中提取一些字段，以便我可以在 UI 的 LHS 上按它们进行过滤。我日志中的示例行如下所示: 2013-07-04 00:
logstash - 使用不区分大小写的 Logstash 过滤器
如何将此 Logstash 过滤器更改为不区分大小写？ filter { if "foo" in [message] { mutate { add_field => { "Alert_le
logstash - 如何让 logstash 删除与一组正则表达式不匹配的所有事件？
我正在尝试将事件消息与几个正则表达式相匹配。我打算使用 grep 过滤器，但它已被弃用，所以我正在尝试使用否定的方法。我正在寻找的功能是删除所有事件，除非消息匹配多个正则表达式。过滤器波纹管不起作
logstash - 将 logstash 作为服务运行并查看标准输出
我用过logstash的RPM安装。因此，logstash 作为 linux 服务运行。我想调试一个管道，需要查看的内容 output { stdout { codec => rubydebug
logstash - 如何在 Logstash 中比较日期
如何在 logstash 中比较日期。我想将日期与恒定日期值进行比较。以下代码在 Logstash 中失败并出现 ruby 异常。 if [start_dt] { "str_dt" => "20
logstash - 如何将选定的日志发送到 Logstash 输出
我正在从logstash-1.1.3升级到logstash-1.3.3。问题是，1.1.3 中的标签和字段配置在 1.3.3 版本中已弃用。这些允许仅将那些事件发送到具有给定标签或包含给定字段的输出。
logstash - 在同一台机器上运行两个 logstash 实例
我想在同一台机器上运行两个 logstash 实例。现在我使用命令启动 logstash。logstash.bat agent -f logstashconf.conf。但是当我要通过相同的命令启动第
logstash - 使用 grok 进行条件匹配以用于 logstash
我有这种格式的 php 日志 [Day Mon DD HH:MM:SS YYYY] [Log-Type] [client ] : [Day Mon DD HH:MM:SS YYYY] [Log-Ty
logstash - Logstash HTTP 输出插件中的 UnknownException
我的 logstash 中的一些请求使 http 输出插件失败，并且日志显示 [2020-10-16T18:44:54,574][ERROR][logstash.outputs.http ] [HTT
logstash - 如何使用Logstash插件-logstash-input-http
我正在探索Logstash来接收HTTP上的输入。我已经使用以下方法安装了http插件: 插件安装logstash-input-http 安装成功。然后我尝试使用以下命令运行logstash: log

首页

博学

6Ren·AI

商城

elasticsearch - 如何在Logstash中解析tmx文件(用于翻译数据的xml文件)