- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
需求是将大于5MB的XML文档分割成更小的文档 block ,以支持目标系统接受和处理它/它们。因为 XSLT v2 似乎不支持按大小分割 XML 文档,所以我们最终编写了一个 java 程序。当文档较小或小于 10 MB 时,该程序运行良好。当输入 32 MB 的文件时,程序就会失败。该程序作为代理工作,并插入到最大内存设置为 25GB 的 JVM。尽管如此,我们仍然会看到 OOM 堆空间错误。生成堆转储文件显示以下问题嫌疑人 1:
sun.misc.Launcher$AppClassLoader @ 0x1bb7ae098" occupies 156,512,240 (64.62%) bytes. The memory is accumulated in one instance of
基于此,我开始检查程序并推断出一个可能引发内存问题的点,即[您可能会忽略一些系统输出,因为它们是为我的调试 session 添加的]:
public static HashMap < Integer, String > splitPromotionItem(List promotionsItems, int promotionItemMaxSizeUoMNumericValue, int promotionItemMaxSize, String routingLocation, String docNum, XDNode messageHeader, XDNode promotionsData){
HashMap < Integer, String > promotionItemMap = new HashMap < Integer, String > ();
int totalSubMessage = 1;
String promotionsItemsData = "";
int promotionsItemsSize = 0;
String promotionsItemsDataTemp = "";
int i = 0;
int q = 1;
do {
promotionsItemsSize = promotionsItemsSize + ((XDNode) promotionsItems.get(i)).flatten().getBytes().length;
promotionsItemsData = promotionsItemsData + ((XDNode) promotionsItems.get(i)).flatten();
if (promotionsItemsSize > (promotionItemMaxSize * 1024 * 1024)) {
System.out.println("Inside First If: " + promotionsItems.size() + ": " + q++);
promotionsItemsSize = promotionsItemsSize - ((XDNode) promotionsItems.get(i)).flatten().getBytes().length;
promotionsItemsData = promotionsItemsDataTemp;
promotionItemMap.put(totalSubMessage++, promotionsItemsData);
if (i != (promotionsItems.size() - 1)) {
System.out.println("Inside Second If: " + promotionsItems.size());
i--;
promotionsItemsSize = 0;
promotionsItemsData = "";
} else {
System.out.println("Inside Second Else: " + promotionsItems.size());
promotionsItemsSize = ((XDNode) promotionsItems.get(i)).flatten().getBytes().length;
promotionsItemsData = ((XDNode) promotionsItems.get(i)).flatten();
}
}
if (promotionsItemsSize < (promotionItemMaxSize * 1024 * 1024) && (i) == (promotionsItems.size() - 1)) {
promotionItemMap.put(totalSubMessage++, promotionsItemsData);
}
i++;
promotionsItemsDataTemp = promotionsItemsData;
} while (i < promotionsItems.size());
return promotionItemMap;
}
该程序似乎首先将大型 XML 文档分割成较小的 block ,这些 block 存储在 HashMap 中,然后将其提供给一个函数,该函数迭代映射中的每个条目并写入文件。文件的名称和其中的元素之一带有文件在拆分批处理中的索引以及总拆分计数,以便于识别。
我最初的想法是将代码修改为:不将较小的 XML block 收集到 HashMap 中,而是直接将它们写入文件。这还要求在将所有较小的 block 保存到磁盘后,我必须重新打开它们以更新其内容以反射(reflect)文件索引和总计数以及文件本身的名称。
有没有更好的方法来处理这个问题?请帮忙。
注意:JVM 每天处理大量数据,并具有以下启动选项,我们使用 saxon 作为 xslt 处理器:
-Djavax.xml.transform.TransformerFactory=net.sf.saxon.TransformerFactoryImpl -Xmx15360M -Xrs -XX:GCTimeRatio=5 -XX:+PrintGCDetails -Xloggc:<location> -XX:MinHeapFreeRatio=25 -XX:MaxHeapFreeRatio=60
更新29112017
XDNode 类及其扁平化函数的使用是使用 iWay 提供的 API 扩展程序的结果,以便能够将代理插入到其 JVM 中以无缝执行流程。这是XDNode的官方定义:
XDNode 是 XML 树的单个元素。完整的文档是 XDNode 的树。 XDNode 类和树专为快速解析和搜索以及在应用程序中轻松操作而设计。可以使用方法在 XDNode 树和标准 JDOM 树之间进行转换。所有服务器操作都在 XDNode 树上执行。
函数flatten()将整个XML文档作为字符串返回。
以下是 XML 文档的示例:
拆分操作在元素/SalonApps/Promotion/PromotionData/PromotionItem 处执行。我们迭代 PromotionItem 的每次出现,并将迭代的 block 存储在临时变量中,如上面的代码所示。我们还在每次迭代开始时检查大小是否超过限制 5 MB [在类的开头定义],以确定是否需要执行打包和文件写入操作。当大小较小时,迭代进一步进行以收集和存储。文档的 header 部分 [/SalonApps/Promotion/MessageHeader] 将添加到每个拆分文档中,并修改 MessageID 的值以反射(reflect)批处理中拆分消息的索引以及位置 2 和 3 处的批处理总数。值由连字符分隔。
我们仅支持 XSLT v1 和 v2。如果 XSLT v1 或 v2 可用于按 XML 文档的大小拆分文档,那就太好了。
最佳答案
我发现很难准确理解您想要做什么,通过对示例代码进行逆向工程来获得任何见解当然非常困难。但您已经表达了对 XSLT 解决方案的兴趣,因此这里有一个建议。
如果您的文档本质上是以下形式的平面结构:
<table>
<record>...</record>
<record>...</record>
...
</table>
如果记录数是文档大小的合理代理,那么您可以使用以下方法轻松地将其拆分为片段,每个片段的最大大小为 N(记录)
<xsl:template match="table">
<xsl:for-each-group select="record" group-adjacent="(position()-1) idiv $N">
<xsl:result-document href="part{position()}">
<table>
<xsl:copy-of select="current-group()"/>
</table>
</xsl:result-document>
</xsl:for-each-group>
</xsl:template>
另请注意,如果您使用 XSLT 3.0,则此解决方案是可流式传输的(尽管在开始处理 200Mb 或更多数据之前,不需要流式传输)。
如果这不是您想要做的,那么您需要更清楚地解释您的要求。
关于 java | XML 按大小分割 | HashMap 性能问题 | OOM 堆空间错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47474329/
正如标题中所问,我有两个如下结构的 XML 文件 A.xml //here I want to include B.xml
我有一个 xml 文件。根据我的要求,我需要更新空标签,例如我需要更改 to .是否可以像那样更改标签.. 谢谢... 最佳答案 var xmlString=" "; var properStri
我有这样简单的 XML: Song Playing 09:41:18 Frederic Delius Violin Son
在我的工作中,我们有自己的 XML 类来构建 DOM,但我不确定应该如何处理连续的空格? 例如 Hello World 当它被读入 DOM 时,文本节点应该包含 Hello 和 World
我有以下 2 个 xml 文件,我必须通过比较 wd:Task_Name_ID 和 TaskID 的 XML 文件 2。 例如,Main XML File-1 wd:Task_Name_ID 具有以下
我在 Rails 应用程序中有一个 XML View ,需要从另一个文件插入 XML 以进行测试。 我想说“构建器,只需盲目地填充这个字符串,因为它已经是 xml”,但我在文档中看不到这样做的任何内容
我正在重建一些 XML 提要,因此我正在研究何时使用元素以及何时使用带有 XML 的属性。 一些网站说“数据在元素中,元数据在属性中。” 那么,两者有什么区别呢? 让我们以 W3Schools 为例:
在同一个文档中有两个 XML 声明是否是格式正确的 XML? hello 我相信不是,但是我找不到支持我的消息来源。 来自 Extensible Markup Language
我需要在包装器 XML 文档中嵌入任意(语法上有效的)XML 文档。嵌入式文档被视为纯文本,在解析包装文档时不需要可解析。 我知道“CDATA trick”,但如果内部 XML 文档本身包含 CDAT
XML 解析器和 XML 处理器是两个不同的东西吗?他们是两个不同的工作吗? 最佳答案 XML 解析器和 XML 处理器是一样的。它不适用于其他语言。 XML 是通用数据标记语言。解析 XML 文件已
我使用这个 perl 代码从一个文件中读取 XML,然后写入另一个文件(我的完整脚本有添加属性的代码): #!usr/bin/perl -w use strict; use XML::DOM; use
我正在编写一个我了解有限的历史脚本。 对象 A 的类型为 system.xml.xmlelement,我需要将其转换为类型 system.xml.xmldocument 以与对象 B 进行比较(类型
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
我有一个案例,其中一个 xml 作为输入,另一个 xml 作为输出:我可以选择使用 XSL 和通过 JAXB 进行 Unmarshalling 编码。性能方面,有什么真正的区别吗? 最佳答案 首先,程
我有包含 XML 的 XML,我想使用 JAXB 解析它 qwqweqwezxcasdasd eee 解析器 public static NotificationRequest parse(Strin
xml: mario de2f15d014d40b93578d255e6221fd60 Mario F 23 maria maria
尝试更新 xml 文件数组时出现以下错误。 代码片段: File dir = new File("c:\\XML"); File[] files = dir.listFiles(new Filenam
我怎样才能完成这样的事情: PS /home/nicholas/powershell> PS /home/nicholas/powershell> $date=(Get-Date | ConvertT
我在从 xml 文件中删除节点时遇到一些困难。我发现很多其他人通过各种方式在 powershell 中执行此操作的示例,下面的代码似乎与我见过的许多其他示例相同,但我没有得到所需的行为。 我的目标是将
我是一名优秀的程序员,十分优秀!