- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我在 Scala 中使用 XML,在具有有限内存 资源的系统中解析可以达到 ~20MB 的文件。我必须读取整个文件,并且必须从中提取所有数据。更具体地说,我必须读取的节点具有有限的属性和值。
我想知道在性能方面最好的方法是什么(或者两者是否具有相同的性能)。我问这个是因为我不知道 Scala 如何处理它的 XML 库,而且我可能会遗漏一些细节。
第一种方法
def firstApproach(root: Elem) =
for { n <- root \ "node" } yield handleNodeAttribute(n)
private def handleNodeAttribute(n: Node) = n match {
case node @ <node /> if (node \ "@attr").text == "type1" => // do something
// here other possible cases -> type2, type3
}
第二种方法
def secondApproach(root: Elem) = {
val nodes = root \ "node"
val type1 = filterNodesByAttribute(nodes, "attr", "type1")
// and so on -> type2, type3
}
private def filterNodesByAttribute(nodes: NodeSeq, attr: String, value: String) = {
nodes filter (node => (node \ ("@" + attr)) text == value)
}
那么,与使用模式匹配和每个问题迭代一次(for-yield 循环)相比,使用 XPath 方法处理所有文件有什么优势吗?
最佳答案
这两种解决方案的性能将是相似的,并且可能都不适合您的内存限制。
当我们谈论 XML 处理时,通常有两种类型的方法,DOM 处理和流式 处理。
DOM 处理读取整个源文档,然后允许程序员对内存表示 执行操作。从程序员的角度来看,这通常是处理 XML 文档的最简单方法,但是所使用的内存与 XML 文档的大小成正比。这意味着处理大型文档会占用大量内存。
流式处理 处理读取 XML 文档并在读取时动态处理文档。从程序员的角度来看,这使得文档更难使用,因为他不能同时访问整个文档,只能访问一小部分。它具有持续使用内存的优点。也就是说,您不需要在内存中保存整个文档,只需保存您正在操作的部分。
鉴于您的内存限制,您几乎肯定必须使用流式处理方法。使用流式方法,您可以读取文件,提取您感兴趣的部分,然后继续,从而不会为您不感兴趣的文档部分积累额外的内存。
请注意,如果您从文件中提取大量 信息并将其保存在内存中,您将有效地抵消流式处理的好处,因为您只是将所有数据保存在无论如何内存。如果您发现自己处于这种情况并且遇到内存问题,请考虑在读入数据后将数据流式传输到文件中,而不是将其保存在内存中。您可以将流式传输视为对 XML 的转换。您阅读整个文档一次,转换(保留/更改/丢弃)您感兴趣的部分,并在转换完成后立即将它们写出来。
scala.xml
现在,scala.xml
包使用 DOM 样式方法来处理 XML,因此它可能不适合您。您的两个解决方案都建立在这个包之上。我建议与具有 XML 流支持的 Java 库交互(我不知道有任何 Scala 库支持)。
javax.xml
Java 标准库已经有各种工具以流方式处理 XML。我个人只将这些工具用于基于流的 编写 XML 文件,但它们应该非常简单,并且非常适合任何场景。
Jackson( https://github.com/FasterXML/jackson-core ) 支持基于流的 XML 处理,这可能比 javax.xml
中的 API 功能更丰富。确保您使用他们的流式 API,因为他们也有基于 DOM 的 API,这将再次给您留下内存问题。
关于XML 解析性能 Scala,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28035092/
正如标题中所问,我有两个如下结构的 XML 文件 A.xml //here I want to include B.xml
我有一个 xml 文件。根据我的要求,我需要更新空标签,例如我需要更改 to .是否可以像那样更改标签.. 谢谢... 最佳答案 var xmlString=" "; var properStri
我有这样简单的 XML: Song Playing 09:41:18 Frederic Delius Violin Son
在我的工作中,我们有自己的 XML 类来构建 DOM,但我不确定应该如何处理连续的空格? 例如 Hello World 当它被读入 DOM 时,文本节点应该包含 Hello 和 World
我有以下 2 个 xml 文件,我必须通过比较 wd:Task_Name_ID 和 TaskID 的 XML 文件 2。 例如,Main XML File-1 wd:Task_Name_ID 具有以下
我在 Rails 应用程序中有一个 XML View ,需要从另一个文件插入 XML 以进行测试。 我想说“构建器,只需盲目地填充这个字符串,因为它已经是 xml”,但我在文档中看不到这样做的任何内容
我正在重建一些 XML 提要,因此我正在研究何时使用元素以及何时使用带有 XML 的属性。 一些网站说“数据在元素中,元数据在属性中。” 那么,两者有什么区别呢? 让我们以 W3Schools 为例:
在同一个文档中有两个 XML 声明是否是格式正确的 XML? hello 我相信不是,但是我找不到支持我的消息来源。 来自 Extensible Markup Language
我需要在包装器 XML 文档中嵌入任意(语法上有效的)XML 文档。嵌入式文档被视为纯文本,在解析包装文档时不需要可解析。 我知道“CDATA trick”,但如果内部 XML 文档本身包含 CDAT
XML 解析器和 XML 处理器是两个不同的东西吗?他们是两个不同的工作吗? 最佳答案 XML 解析器和 XML 处理器是一样的。它不适用于其他语言。 XML 是通用数据标记语言。解析 XML 文件已
我使用这个 perl 代码从一个文件中读取 XML,然后写入另一个文件(我的完整脚本有添加属性的代码): #!usr/bin/perl -w use strict; use XML::DOM; use
我正在编写一个我了解有限的历史脚本。 对象 A 的类型为 system.xml.xmlelement,我需要将其转换为类型 system.xml.xmldocument 以与对象 B 进行比较(类型
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
我有一个案例,其中一个 xml 作为输入,另一个 xml 作为输出:我可以选择使用 XSL 和通过 JAXB 进行 Unmarshalling 编码。性能方面,有什么真正的区别吗? 最佳答案 首先,程
我有包含 XML 的 XML,我想使用 JAXB 解析它 qwqweqwezxcasdasd eee 解析器 public static NotificationRequest parse(Strin
xml: mario de2f15d014d40b93578d255e6221fd60 Mario F 23 maria maria
尝试更新 xml 文件数组时出现以下错误。 代码片段: File dir = new File("c:\\XML"); File[] files = dir.listFiles(new Filenam
我怎样才能完成这样的事情: PS /home/nicholas/powershell> PS /home/nicholas/powershell> $date=(Get-Date | ConvertT
我在从 xml 文件中删除节点时遇到一些困难。我发现很多其他人通过各种方式在 powershell 中执行此操作的示例,下面的代码似乎与我见过的许多其他示例相同,但我没有得到所需的行为。 我的目标是将
我是一名优秀的程序员,十分优秀!