gpt4 book ai didi

xml - 在Perl中读取带有巨大文本节点的xml的实用方法

转载 作者:数据小太阳 更新时间:2023-10-29 01:58:04 27 4
gpt4 key购买 nike

遇到包含巨大文本节点的xml数据文件后,我在我的数据中寻找一些方法来阅读和评估它们处理脚本。

xml 文件是用于分子建模的 3D 坐标文件具有这种结构的应用程序(示例):

<?xml version="1.0" encoding="UTF-8"?>
<hoomd_xml version="1.4">
<configuration>
<position>
-0.101000 0.011000 -40.000000
-0.077000 0.008000 -40.469000
-0.008000 0.001000 -40.934000
-0.301000 0.033000 -41.157000
0.213000 -0.023000 -41.348000
...
... 300,000 to 500,000 lines may follow >>
...
-0.140000 0.015000 -42.556000
</position>

<next_huge_section_of_the_same_pattern>
...
...
...
</next_huge_section_of_the_same_pattern>

</configuration>
</hoomd_xml>

每个 xml 文件都包含几个巨大的文本节点,大小在 60MB 到 100MB 之间,具体取决于内容。

我尝试了使用 XML::Simple 的简单方法首先,但加载程序将永远花很长时间来初始解析文件:

...
my $data = $xml->XMLin('structure_80mb.xml');
...

并以“内部错误:巨大的输入查找”停止,因此这种方法不太可行。

下一个尝试是使用 XML::LibXML用于阅读 - 但在这里,初始加载器会立即退出并显示错误消息“解析器错误:xmlSAX2Characters:巨大的文本节点”。

stackoverflow 上写这个主题之前,我为自己编写了一个 q&d 解析器并通过它发送文件(在将 xx MB xml 文件插入标量 $xml 之后) >):

...
# read the <position> data from in-memory xml file
my @Coord = xml_parser_hack('position', $xml);
...

它以数组的形式返回每一行的数据,在几秒钟内完成,如下所示:

sub xml_parser_hack {
my ($tagname, $xml) = @_;
return () unless $xml =~ /^</;

my @Data = ();
my ($p0, $p1) = (undef,undef);
$p0 = $+[0] if $xml =~ /^<$tagname[^>]*>[^\r\n]*[r\n]+/msg; # start tag
$p1 = $-[0] if $xml =~ /^<\/$tagname[^>]*>/msg; # end tag
return () unless defined $p0 && defined $p1;
my @Lines = split /[\r\n]+/, substr $xml, $p0, $p1-$p0;
for my $line (@Lines) {
push @Data, [ split /\s+/, $line ];
}
return @Data;
}

到目前为止,这工作正常,但当然不能视为“生产就绪”。

问:如何使用 Perl 模块读取文件?我会选择哪个模块?

提前致谢

rbo


附录:在阅读 choroba 的评论后,我深入研究了 XML::LibXML。打开文件 my $reader = XML::LibXML::Reader->new(location =>'structure_80mb.xml'); 有效,这与我之前的想法相反。如果我尝试访问标签下方的文本节点,则会发生错误:

...
while ($reader->read) {
# bails out in the loop iteration after accessing the <position> tag,
# if the position's text node is accessed
# -- xmlSAX2Characters: huge text node ---
...

最佳答案

huge 尝试 XML::LibXML解析器选项:

my $doc = XML::LibXML->load_xml(
location => 'structure_80mb.xml',
huge => 1,
);

或者,如果您想使用 XML::LibXML::Reader:

my $reader = XML::LibXML::Reader->new(
location => 'structure_80mb.xml',
huge => 1,
);

关于xml - 在Perl中读取带有巨大文本节点的xml的实用方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16812826/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com