- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
基本上,我需要使用 perl 模块 XML::libXML::Reader 中的模式选项,以便在解析文件时验证大型 (>1GB) XML 文件。
以前,我使用 xmllint 命令根据给定架构 (xsd) 文件验证 XML 文件。但是现在我有一些大型 XML 文件需要验证,但尝试执行验证时内存不足 (8GB)。
我在 XML::libXML::Reader perl 模块页面上读到有一个模式选项。但是,当我使用它时(请参阅下面的代码),当找到 XML 文件的第一个无效元素时,代码就会退出。
use strict;
use warnings;
use XML::LibXML::Reader;
my $SchemaFile='schema.xsd';
my $FileToAnalyse='/tmp/file.xml';
my $reader = XML::LibXML::Reader->new(location => $FileToAnalyse,Schema=>$SchemaFile) or
die "cannot read file '$FileToAnalyse': $!\n";
while($reader->read) {
Process the file line by line here, even if not valid against schema (reduces memory usage for large files)
}
我需要收集无效条目并继续而不是退出。这可能吗?
最佳答案
$reader->read
无法从架构验证错误中恢复(即使可以恢复)的原因可以在 line #8815 中查看。 LibXML.xs
。请注意,REPORT_ERROR()
是用零值调用的(该值指示 `LibXML_report_error_ctx() 是否能够从错误中恢复。零值意味着它不会尝试恢复,并且它会调用XML::LibXML::Error::_report_error来结束。
我尝试将 line #8815 处的值更改为 1并重新编译了 XS 模块,现在它将架构错误报告为警告(而不是死亡)并继续解析。
我想这个选项不提供给用户是有充分理由的,但我对 XML 解析不太熟悉,所以我可以举一个例子来说明这里可能会出现什么问题。
编辑:
看来正确的做法是捕获read()
抛出的异常,然后尝试再次调用read()
,如果下面的调用read()
返回 -1,解析器无法从错误中恢复,如果返回 0,则已到达文件结尾,如果返回 1,则可以从异常中恢复。我做了一些测试,它似乎能够从模式验证错误中恢复,但不能从解析错误中恢复。所以你可以尝试以下方法:
use feature qw(say);
use strict;
use warnings;
use Try::Tiny qw(try catch);
use XML::LibXML::Reader;
my $SchemaFile='schema.xsd';
my $FileToAnalyse='file.xml';
my $reader = XML::LibXML::Reader->new(
location => $FileToAnalyse, Schema => $SchemaFile
) or die "cannot read file '$FileToAnalyse': $!\n";
while (1) {
my $result;
try { $result = $reader->read } catch {
say '==> ' . $_;
$result = 1; # Try to continue after exception..
};
last if $result != 1;
if ( $reader->nodeType == XML_READER_ELEMENT ) {
say "Element node: ", $reader->name;
}
}
$reader->finish();
$reader->close();
关于XML::LibXML::Reader 需要警告模式错误而不是退出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58448603/
class ReadLock { private: std::mutex readWriteMutex; std::mutex conditionmtx; std::condi
我在 utf-8 编码文件中有多个 messages.properties 文件(messages_en_US.properties、messages_fr.properties,...)。在这些属性
我正在尝试从 google reader api 中检索单个选定项目。是否可以通过 API 调用通过 ID 获取项目,或者我是否必须访问该项目提要并从那里获取它? 最佳答案 您可以使用 POST 到
好的,所以我有一个应用程序可以与 GR 的“api”紧密结合。 一切正常,但最近我收到来自 Google 的许可被拒绝返回。如果我退出 GR 并使用我的应用程序重新登录,一切都会重新开始。这让我相信
我想要的是最终得到类似的东西: public class InterleavedBufferedReader extends BufferedReader { ... } 并将其用作: Reader[
reader monad 有一个asks 函数,它的定义与reader 函数完全相同,为什么它作为一个单独的函数存在,与 的定义相同读者?为什么不总是使用阅读器? class Monad m => M
当使用csv模块读取文件时,有两种方法可以遍历csv.reader返回的生成器。 with open('foo.csv') as f: reader = csv.reader(f) r
我想在 Go 中按照 here 中的要求做同样的事情. 我正在解析一个巨大的日志文件,我需要逐行解析它。在每一行上,我将该行反序列化为一个结构。数据可能来自任何数据源(文件、网络等)。因此,我在我的函
我在golang的zlib/reader.go文件中找到了很多像r.(flate.Reader)这样的代码片段。这是什么意思? https://golang.org/src/compress/zlib
我正在 Spring MVC 中包装 Freemarker 模板加载器,如所述 here在 html 页面中进行默认转义。 所以,我需要用我的字符串包装来自 java.io.Reader 的内容,而不
为什么这个 PDF 在 Foxit Reader 而不是 Adobe Reader 中显示签名? 这是来自 Syncfusion PDF library 的代码用于生成它(另请参阅有关 signi
我有一个巨大的tbb::concurrent_unordered_map被多个(~60)线程同时“大量读取”。 我每天需要清除一次(完全清除或选择性清除)。在 tbb 中删除显然不是线程安全的实现,因
好像是 Hibernate.createClob(Reader reader, int length)在 3.6.x 版本中已弃用 它建议使用使用 LobHelper.createClob(Reade
这是我的实际解决方案 private def transpose[E, A](readers : Seq[Reader[E, A]]) : Reader[E, Seq[A]] = Read
DataReader[0].ToString() 和 (string)DataReader[0] 有区别吗? 我的猜测是,如果数据库类型不是字符串类型,(string)DataReader[0] 可能
我想制作一个 C# 程序来保存 pdf 和 djvu 文件的书签。如何从 AcroRd32/DjVuReader 进程中找出当前页码? 最佳答案 您可以通过 Adobe Acrobat 支持的 D
什么更好 var s = (string)reader[0] 或 var s = Convert.ToString(reader[0]) ? 最佳答案 我会说 reader.GetString(0
我对非官方阅读器 api 进行了大量研究,并筛选了其他问题,但没有一个完全满足我的要求。如果您知道文章 id 有据可查,如何分享文章,但如果您不知道 id,我想知道如何分享文章(即如何转换 url -
这是一个简单的示例,用于将 xml 文件读入 WebRowSet 对象,然后将数据从该对象加载到数据库。 import javax.sql.rowset.RowSetProvider; import
这样的转换对于任何仿函数都是可能的,不仅是Future: implicit class RichFunctorReader[F[_]: Functor, A, B](fr: F[Reader[A, B
我是一名优秀的程序员,十分优秀!