perl - XML::Twig - 管理具有相同标签的字段-6ren

perl - XML::Twig - 管理具有相同标签的字段

转载作者：行者123 更新时间：2023-12-04 05:36:52

我有一个需要解析复杂 XML 数据的项目。我决定选择 XML::Twig它在大多数情况下都非常有效。我遇到了一个问题，即不同的信息具有相同的标签名称，但路径不同。类似于下面的 DateOfBirth用于两个不同的领域。

  <doc:DForm xmlns:doc="urn:xml-gov-au:...">
    <doc:PersonsDetails>
       <doc:GivenName LanguageIdentifier="" LanguageLocaleIdentifier="">
          John
       </doc:GivenName>
       <doc:Surname LanguageIdentifier="" LanguageLocaleIdentifier="">
          Citizen
       </doc:Surname>
       <doc:DateOfBirth LanguageIdentifier="" LanguageLocaleIdentifier="">
          2012-06-14
       </doc:DateOfBirth>
    </doc:PersonsDetails>
    <doc:SupportingInformation>
       <doc:NumberOfSiblings>
       5.00
       </doc:NumberOfSiblings>
       <doc:SiblingsDetails>
         <doc:DateOfBirth LanguageIdentifier="" LanguageLocaleIdentifier="">
         2009-03-18
         </doc:DateOfBirth>
         <doc:Name LanguageIdentifier="" LanguageLocaleIdentifier="">
         James Citizen</doc:Name>
       </doc:SiblingsDetails>
       <doc:SiblingsDetails>
         <doc:DateOfBirth LanguageIdentifier="" LanguageLocaleIdentifier="">
            2006-08-17
         </doc:DateOfBirth>
         <doc:Name LanguageIdentifier="" LanguageLocaleIdentifier="">
            Jane Citizen
         </doc:Name>
       </doc:SiblingsDetails>
       <doc:Address>
           <doc:Street>25 test street<doc:Street>
           <doc:City>Melbourne <doc:City>
           <doc:PostalCode>3000<doc:PostalCode>
       <doc:Address>
    </doc:SupportingInformation>
    </doc:MCCPDForm>

我已经设置了几个处理程序来处理不同的信息，但是由于我们不需要同级详细信息，因此最终基于将字段映射到 XML 元素的 2 级散列对其进行处理。

sample :

my %field = ( 
       "DetDateOfBirth" => {
    "type"    => "Date",
    "value"   => undef,
    "dbfield" => "DetDateOfBirth",
   },
)

所以，当兄弟的 DOB 被处理时，它会使用上面的哈希元素来设置它，但是当这个人的 DOB 被处理时，因为已经有一个值，它会移动到下一个元素。

所以我设置了另一个处理程序并确保之前处理过信息。

现在，问题是，想象有多种情况，其中相同的名称用于多个元素但在不同的路径中。我只是编写更多的处理程序，还是有另一种更好地管理这种情况的方法。

相关代码 :

my $namespace = "doc";
my $formname = "DForm";
enter code here
my $twig = XML::Twig->new(
    pretty_print  => 'indented',
    twig_handlers => {
        "$namespace:${formname}/$namespace:PersonsDetails/$namespace:Address" =>
          \&ProcessAddress,
        "$namespace:${formname}/$namespace:SupportingInformation" =>
          \&ProcessSupportingInformation,
        "bie1:PdfFile"           => \&DecodePDF,
        "$namespace:${formname}" => \&ProcessRecord,
    }
);


sub ProcessRecord {
    my $twg    = shift;
    my $record = shift;
    my $fld;
    my $value;
    my $irn;

    my $elt = $record;

    while ( $elt = $elt->next_elt($record) ) {
        $fld = $elt->tag();

        $fld =~ s/^$namespace\://;


        if ( defined $fields{$fld}{"type"} && $elt->text ) {
            if ( $fld =~ /NameOfPlaceInstitution|HospitalNameOfBirth/i ) {
                next if $elt->text =~ /Other location/i;
            }

            if ( !defined $fields{$fld}{"value"} ) {
                $fields{$fld}{"value"} = $elt->text;
            }

        }
    }
}

sub ProcessSupportingInformation {
    my $twg    = shift;
    my $record = shift;
    my $fld;
    my $value;
    my $parent;

    my $elt = $record;

    while ( $elt = $elt->next_elt($record) ) {
        $fld = $elt->tag();
        $fld =~ s/^$namespace\://;

        $parent = $elt->parent();

        next if ( $fld =~ /PCDATA/ );

        if ( defined $fields{$fld}{"type"} && $elt->text ) {
            if ( $fld =~ /PlaceOfDeathHospital/i ) {
                if ( $elt->text =~ /Other location/i ) {
                    next;
                }
            }

                    if ( $fld =~ /StreetAddress/i ) {
                $fields{"StreetAddressOfPerson"} = $elt->text;
            }
            else {
                if ( !defined $fields{$fld}{"value"} ) {
                    $fields{$fld}{"value"} = $elt->text;
                }
            }
        }
        else {
            $record->delete;
        }
    }

}

仅供引用，实际的 XML 文件大约有 700 行，其中还包括一个编码的 PDF。

另一种选择是在哈希中设置另一个标志，将标签映射到数据库字段，并在第一次处理信息时设置它。

谢谢

PS:抱歉修改太多。我想我现在明白了。

PPS:代码中有一个敏感信息以及我无法显示的 xml，所以我不得不编辑它的一部分......

最佳答案

很难理解您的确切情况，因为您已将问题减少到 XML 无效的程度(它以 <doc:DForm> 开头但以 <doc:MCCPDForm> 结尾)并且 Perl 代码与 XML 数据不对应。

但是我认为您正在使用 XML::Twig错。 “ Twig ”主要是为了将 XML 文件简化为可以独立处理的一系列记录，而不是作为访问数据中单个元素的基础。

你不说<bie1:PdfFile>元素与 <PersonsDetails> 相关所以我无法评论这些，但看起来没有包含 <PersonsDetails> 的单个元素和相关的<SupportingInformation> ，因此它们只能通过它们在文件中的邻接关系联系在一起。

如果是这种情况，那么我将只在这两个元素上放置一个处理程序，并且代码看起来类似于下面的程序。

很容易区分所有<DateOfBirth>的含义在特定上下文中遇到的元素 - 在 ProcessPersonDetails 中或在 ProcessSupportingInformation 内作为 sibling 列表之一。

该程序仅打印示例 XML 中可用的信息。相反，构建数据库记录并在处理给定人员的最后数据时将其写入不会太难。

另请注意对 purge 的调用这是从内存中删除处理过的信息所必需的。没有这个，一次处理数据枝而不是整个文档没有任何好处

use strict;
use warnings;

use XML::Twig;

my $twig = XML::Twig->new(
    twig_handlers => {
        'doc:PersonsDetails' => \&ProcessPersonsDetails,
        'doc:SupportingInformation' => \&ProcessSupportingInformation
    }
);

$twig->parsefile('DForm.xml');


sub ProcessPersonsDetails {
    my ($twig, $record) = @_;
    print "PersonsDetails\n";
    for (qw/ doc:GivenName doc:Surname doc:DateOfBirth /) {
      print '  ', $record->first_child_trimmed_text($_), "\n";
    }
}

sub ProcessSupportingInformation {
    my ($twig, $record) = @_;
    print "SupportingInformation\n";
    for my $sibling ($record->children('doc:SiblingsDetails')) {
        print "  Sibling\n";
        for (qw/ doc:DateOfBirth doc:Name /) {
          print '    ', $sibling->first_child_trimmed_text($_), "\n";
        }
    }
    $twig->purge;
}

输出

PersonsDetails
  John
  Citizen
  2012-06-14
SupportingInformation
  Sibling
    2009-03-18
    James Citizen
  Sibling
    2006-08-17
    Jane Citizen

更新

如果每个文件只有一条记录，那么 XML::Twig 的能力无需增量处理 XML 数据，并且可以一次加载并处理整个文档。

这个程序正是这样做的，并产生与前面的代码相同的输出。无需编写在解析过程中调用的处理程序，代码更加简洁

use strict;
use warnings;

use XML::Twig;

my $twig = XML::Twig->new(discard_all_spaces => 1);
my $root = $twig->parsefile('DForm.xml')->root;

print "PersonsDetails\n";
my $details = $root->first_child('doc:PersonsDetails');
for (qw/ GivenName  Surname  DateOfBirth /) {
  my $value = $details->trimmed_field("doc:$_");
  print "  $value\n";
}

print "SupportingInformation\n";
my @siblings = $root->first_child('doc:SupportingInformation')->children;
for my $sib (@siblings) {
  print "  Sibling\n";
  for (qw/ Name  DateOfBirth /) {
    my $value = $sib->trimmed_field("doc:$_");
    print "    $value\n";
  }
}

关于perl - XML::Twig - 管理具有相同标签的字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11823041/

文章推荐： java - 用java运行纸张扫描仪软件

文章推荐： amazon-web-services - 我在哪里可以从 cognito 找到 JWT 的 key

java - float(具有 4 个字节的内存)可以在 Java 中保存 long(具有 8 个字节的内存)值。如何？
这是代码片段。请说出这种用小内存存储大数据的算法是什么。 public static void main(String[] args) { long longValue = 21474836
php - 当 Gmail IMAP 具有 utf8 而 Outlook 具有 ISO-8859-7 时，如何读取内容类型 header 并将其转换为 utf-8？
所以我使用 imap 从 gmail 和 outlook 接收电子邮件。 Gmail 像这样编码 =?UTF-8?B?UmU6IM69zq3OvyDOtc68zrHOuc67IG5ldyBlbWFpb
具有 2 个参数的计划过程
很久以前就学会了 C 代码；想用 Scheme 尝试一些新的和不同的东西。我正在尝试制作一个接受两个参数并返回两者中较大者的过程，例如 (define (larger x y) (if (> x
azure - 具有/不具有跨区域恢复的异地冗余恢复服务保管库有什么意义？
Azure 恢复服务保管库有两个备份配置选项 - LRS 与 GRS 这是一个有关 Azure 恢复服务保管库的问题。当其驻留区域发生故障时，如何处理启用异地冗余的恢复服务保管库？如果未为恢复服务启
hibernate - 具有@OneToMany属性的可嵌入实体
说，我有以下实体： @Entity public class A { @Id @GeneratedValue private Long id; @Embedded private
java - 具有 "in"运算符和空列表的条件
我有下一个问题。我有下一个标准: criteria.add(Restrictions.in("entity.otherEntity", getOtherEntitiesList())); 如果我的
Java - 具有 If 语句打印顺序错误的主方法
如果这是任何类型的重复，我会提前申请，但我找不到任何可以解决我的具体问题的内容。这是我的程序: import java.util.Random; public class CarnivalGame{
database - 具有$ setIntersection的Mongodb聚合管道
我目前正在使用golang创建一个聚合管道，在其中使用“$ or”运算符查询文档。结果是一堆需要分组的未分组文档，这样我就可以进入下一阶段，找到两个数据集之间的交集。然后将其用于在单独的集合中进行
java - 具有 Or 条件的正则表达式？
是否可以在正则表达式中创建 OR 条件。我正在尝试查找包含此类模式的文件名列表的匹配项第一个案例 xxxxx-hello.file 或者案例二 xxxx-hello-unasigned.file
c - 具有 `for` 循环的菱形输出
该程序只是在用户输入行数时创建菱形的形状，因此它有 6 个 for 循环； 3 个循环创建第一个三角形，3 个循环创建另一个三角形，通过这 2 个三角形和 6 个循环，我们得到了一个菱形，这是整个程序
c# - 具有 "&"的查询字符串值
我有一个像这样的查询字符串 www.google.com?Department=Education & Finance&Department=Health 我有这些 li 标签，它们的查询字符串是这样
c# - 具有/不同配置值的单元测试静态构造函数
我有一个带有静态构造函数的类，我用它来读取 app.config 值。如何使用不同的配置值对类进行单元测试。我正在考虑在不同的应用程序域中运行每个测试，这样我就可以为每个测试执行静态构造函数 - 但我
c++ - 具有 OR 搜索功能的多键容器
我正在寻找一个可以容纳多个键的容器，如果我为其中一个键值输入保留值(例如 0)，它会被视为“或”搜索。 map, int > myContainer; myContainer.insert(make_
mysql - 具有/多种类型的单个对象的关系表设计
我正在为 Web 应用程序创建数据库，并正在寻找一些建议来对可能具有多种类型的单个实体进行建模，每种类型具有不同的属性。作为示例，假设我想为“数据源”对象创建一个关系模型。所有数据源都会有一些共享属
arrays - 具有 IN 条件的存储过程语法
(1) =>CREATE TABLE T1(id BIGSERIAL PRIMARY KEY, name TEXT); CREATE TABLE (2) =>INSERT INTO T1 (name)
sql - 具有 AS 别名的不明确列引用
我不确定在使用别名时如何解决不明确的列引用。假设有两个表，a 和 b，它们都有一个 name 列。如果我加入这两个表并为结果添加别名，我不知道如何为这两个表引用 name 列。我已经尝试了一些变体，
mysql - 具有 IN 条件的自定义订单
我的查询是: select * from table where id IN (1,5,4,3,2) 我想要的与这个顺序完全相同，不是从1...5，而是从1,5,4,3,2。我怎样才能做到这一点？最
c# - 具有@符号的列名
我正在使用 C# 代码执行动态生成的 MySQL 查询。抛出异常: CREATE TABLE dump ("@employee_OID" VARCHAR(50)); "{"You have an er
java - 具有 + 号的日期格式问题
我有日期 2016-03-30T23:59:59.000000+0000。我可以知道它的格式是什么吗？因为如果我使用 yyyy-MM-dd'T'HH:mm:ss.SSS，它会抛出异常最佳答案 Sim
MYSQL - 具有 in 子句的删除查询中的语法错误
我有一个示例模式，它的 SQL Fiddle 如下: http://sqlfiddle.com/#!2/6816b/2 这个 fiddle 只是根据 where 子句中的条件查询示例数据库，如下所示:

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

perl - XML::Twig - 管理具有相同标签的字段