java | XML 按大小分割 | HashMap 性能问题

java | XML 按大小分割 | HashMap 性能问题 | OOM 堆空间错误

转载作者：行者123 更新时间：2023-12-01 20:05:31

26

4

需求是将大于5MB的XML文档分割成更小的文档 block ，以支持目标系统接受和处理它/它们。因为 XSLT v2 似乎不支持按大小分割 XML 文档，所以我们最终编写了一个 java 程序。当文档较小或小于 10 MB 时，该程序运行良好。当输入 32 MB 的文件时，程序就会失败。该程序作为代理工作，并插入到最大内存设置为 25GB 的 JVM。尽管如此，我们仍然会看到 OOM 堆空间错误。生成堆转储文件显示以下问题嫌疑人 1:

sun.misc.Launcher$AppClassLoader @ 0x1bb7ae098" occupies 156,512,240 (64.62%) bytes. The memory is accumulated in one instance of

基于此，我开始检查程序并推断出一个可能引发内存问题的点，即[您可能会忽略一些系统输出，因为它们是为我的调试 session 添加的]:

public static HashMap < Integer, String > splitPromotionItem(List promotionsItems, int promotionItemMaxSizeUoMNumericValue, int promotionItemMaxSize, String routingLocation, String docNum, XDNode messageHeader, XDNode promotionsData){
    HashMap < Integer, String > promotionItemMap = new HashMap < Integer, String > ();
    int totalSubMessage = 1;
    String promotionsItemsData = "";
    int promotionsItemsSize = 0;
    String promotionsItemsDataTemp = "";
    int i = 0;
    int q = 1;
    do {
        promotionsItemsSize = promotionsItemsSize + ((XDNode) promotionsItems.get(i)).flatten().getBytes().length;
        promotionsItemsData = promotionsItemsData + ((XDNode) promotionsItems.get(i)).flatten();

        if (promotionsItemsSize > (promotionItemMaxSize * 1024 * 1024)) {
            System.out.println("Inside First If: " + promotionsItems.size() + ": " + q++);
            promotionsItemsSize = promotionsItemsSize - ((XDNode) promotionsItems.get(i)).flatten().getBytes().length;
            promotionsItemsData = promotionsItemsDataTemp;
            promotionItemMap.put(totalSubMessage++, promotionsItemsData);
            if (i != (promotionsItems.size() - 1)) {
                System.out.println("Inside Second If: " + promotionsItems.size());
                i--;
                promotionsItemsSize = 0;
                promotionsItemsData = "";
            } else {
                System.out.println("Inside Second Else: " + promotionsItems.size());
                promotionsItemsSize = ((XDNode) promotionsItems.get(i)).flatten().getBytes().length;
                promotionsItemsData = ((XDNode) promotionsItems.get(i)).flatten();
            }
        }
        if (promotionsItemsSize < (promotionItemMaxSize * 1024 * 1024) && (i) == (promotionsItems.size() - 1)) {
            promotionItemMap.put(totalSubMessage++, promotionsItemsData);
        }
        i++;
        promotionsItemsDataTemp = promotionsItemsData;
    } while (i < promotionsItems.size());

    return promotionItemMap;
}

该程序似乎首先将大型 XML 文档分割成较小的 block ，这些 block 存储在 HashMap 中，然后将其提供给一个函数，该函数迭代映射中的每个条目并写入文件。文件的名称和其中的元素之一带有文件在拆分批处理中的索引以及总拆分计数，以便于识别。

我最初的想法是将代码修改为:不将较小的 XML block 收集到 HashMap 中，而是直接将它们写入文件。这还要求在将所有较小的 block 保存到磁盘后，我必须重新打开它们以更新其内容以反射(reflect)文件索引和总计数以及文件本身的名称。

有没有更好的方法来处理这个问题？请帮忙。

注意:JVM 每天处理大量数据，并具有以下启动选项，我们使用 saxon 作为 xslt 处理器:

-Djavax.xml.transform.TransformerFactory=net.sf.saxon.TransformerFactoryImpl -Xmx15360M -Xrs -XX:GCTimeRatio=5 -XX:+PrintGCDetails -Xloggc:<location> -XX:MinHeapFreeRatio=25 -XX:MaxHeapFreeRatio=60

更新29112017

XDNode 类及其扁平化函数的使用是使用 iWay 提供的 API 扩展程序的结果，以便能够将代理插入到其 JVM 中以无缝执行流程。这是XDNode的官方定义:

XDNode 是 XML 树的单个元素。完整的文档是 XDNode 的树。 XDNode 类和树专为快速解析和搜索以及在应用程序中轻松操作而设计。可以使用方法在 XDNode 树和标准 JDOM 树之间进行转换。所有服务器操作都在 XDNode 树上执行。

函数flatten()将整个XML文档作为字符串返回。

以下是 XML 文档的示例:

拆分操作在元素/SalonApps/Promotion/PromotionData/PromotionItem 处执行。我们迭代 PromotionItem 的每次出现，并将迭代的 block 存储在临时变量中，如上面的代码所示。我们还在每次迭代开始时检查大小是否超过限制 5 MB [在类的开头定义]，以确定是否需要执行打包和文件写入操作。当大小较小时，迭代进一步进行以收集和存储。文档的 header 部分 [/SalonApps/Promotion/MessageHeader] 将添加到每个拆分文档中，并修改 MessageID 的值以反射(reflect)批处理中拆分消息的索引以及位置 2 和 3 处的批处理总数。值由连字符分隔。

我们仅支持 XSLT v1 和 v2。如果 XSLT v1 或 v2 可用于按 XML 文档的大小拆分文档，那就太好了。

最佳答案

我发现很难准确理解您想要做什么，通过对示例代码进行逆向工程来获得任何见解当然非常困难。但您已经表达了对 XSLT 解决方案的兴趣，因此这里有一个建议。

如果您的文档本质上是以下形式的平面结构:

<table>
  <record>...</record>
  <record>...</record>
  ...
</table>

如果记录数是文档大小的合理代理，那么您可以使用以下方法轻松地将其拆分为片段，每个片段的最大大小为 N(记录)

<xsl:template match="table">
   <xsl:for-each-group select="record" group-adjacent="(position()-1) idiv $N">
     <xsl:result-document href="part{position()}">
       <table>
         <xsl:copy-of select="current-group()"/>
       </table>
     </xsl:result-document>
  </xsl:for-each-group>
</xsl:template>

另请注意，如果您使用 XSLT 3.0，则此解决方案是可流式传输的(尽管在开始处理 200Mb 或更多数据之前，不需要流式传输)。

如果这不是您想要做的，那么您需要更清楚地解释您的要求。

关于 java | XML 按大小分割 | HashMap 性能问题 | OOM 堆空间错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47474329/

26

4

0

文章推荐： neo4j - 不需要的恢复到 dbms.memory.heap.max_size 的原始状态

文章推荐： ios - SpriteKit 物理每次都会给出不同的结果

xml - 如何在没有源 xml 文件根节点的情况下将一个 xml 文件包含在另一个 xml 中？
正如标题中所问，我有两个如下结构的 XML 文件 A.xml //here I want to include B.xml
c# - 如何将等 xml 标签格式更改为
我有一个 xml 文件。根据我的要求，我需要更新空标签，例如我需要更改 to .是否可以像那样更改标签.. 谢谢... 最佳答案 var xmlString=" "; var properStri
xml - Golang : get inner xml from xml with xml.解码
我有这样简单的 XML: Song Playing 09:41:18 Frederic Delius Violin Son
xml - XML 阅读器是否应该忽略 XML 文件中的连续空格？
在我的工作中，我们有自己的 XML 类来构建 DOM，但我不确定应该如何处理连续的空格？例如 Hello World 当它被读入 DOM 时，文本节点应该包含 Hello 和 World
xml - 比较来自不同 XML 文件的元素值并附加到第一个 XML
我有以下 2 个 xml 文件，我必须通过比较 wd:Task_Name_ID 和 TaskID 的 XML 文件 2。例如，Main XML File-1 wd:Task_Name_ID 具有以下
xml - 使 XML 构建器从字符串中插入 XML
我在 Rails 应用程序中有一个 XML View ，需要从另一个文件插入 XML 以进行测试。我想说“构建器，只需盲目地填充这个字符串，因为它已经是 xml”，但我在文档中看不到这样做的任何内容
xml - XML 数据和 XML 元数据之间有什么区别？
我正在重建一些 XML 提要，因此我正在研究何时使用元素以及何时使用带有 XML 的属性。一些网站说“数据在元素中，元数据在属性中。” 那么，两者有什么区别呢？让我们以 W3Schools 为例:
xml - 文档中的多个 XML 声明是否为格式正确的 XML？
在同一个文档中有两个 XML 声明是否是格式正确的 XML？ hello 我相信不是，但是我找不到支持我的消息来源。来自 Extensible Markup Language
xml - 在 XML 中包装任意 XML
我需要在包装器 XML 文档中嵌入任意(语法上有效的)XML 文档。嵌入式文档被视为纯文本，在解析包装文档时不需要可解析。我知道“CDATA trick”，但如果内部 XML 文档本身包含 CDAT
xml - XML 解析器和 XML 处理器是否相同？
XML 解析器和 XML 处理器是两个不同的东西吗？他们是两个不同的工作吗？最佳答案 XML 解析器和 XML 处理器是一样的。它不适用于其他语言。 XML 是通用数据标记语言。解析 XML 文件已
xml - 在保留格式的同时从文件读取 XML 和从文件读取 XML
我使用这个 perl 代码从一个文件中读取 XML，然后写入另一个文件(我的完整脚本有添加属性的代码): #!usr/bin/perl -w use strict; use XML::DOM; use
xml - 使用 PowerShell 将 system.xml.xml 元素转换为 system.xml.xml 文档
我正在编写一个我了解有限的历史脚本。对象 A 的类型为 system.xml.xmlelement，我需要将其转换为类型 system.xml.xmldocument 以与对象 B 进行比较(类型
xml - 如何将子节点结构从一个 XML 文件复制到另一个 XML 文件(合并两个 XML 文件)？
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
xml - 如何将子节点结构从一个 XML 文件复制到另一个 XML 文件(合并两个 XML 文件)？
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
java - 转换性能 XML>XSL>XML 与 XML>JAXB>XML
我有一个案例，其中一个 xml 作为输入，另一个 xml 作为输出:我可以选择使用 XSL 和通过 JAXB 进行 Unmarshalling 编码。性能方面，有什么真正的区别吗？最佳答案首先，程
java - 从 XML 元素获取 XML 时的标签顺序(XML 包含 XML)？
我有包含 XML 的 XML，我想使用 JAXB 解析它 qwqweqwezxcasdasd eee 解析器 public static NotificationRequest parse(Strin
xml - 无法使用 XML 架构和 Perl (XML::LibXML) 验证 XML
xml: mario de2f15d014d40b93578d255e6221fd60 Mario F 23 maria maria
java.net.MalformedURLException : no protocol: [c:\XML\file. xml，c :\XML\file2. xml，c :\XML\file3. xml]
尝试更新 xml 文件数组时出现以下错误。代码片段: File dir = new File("c:\\XML"); File[] files = dir.listFiles(new Filenam
xml - 如何使用 ConvertTo-Xml 和 Select-Xml 加载或读取 XML 文件？
我怎样才能完成这样的事情: PS /home/nicholas/powershell> PS /home/nicholas/powershell> $date=(Get-Date | ConvertT
xml - 删除 XML 节点以将 XML 日志文件的大小减小到给定大小
我在从 xml 文件中删除节点时遇到一些困难。我发现很多其他人通过各种方式在 powershell 中执行此操作的示例，下面的代码似乎与我见过的许多其他示例相同，但我没有得到所需的行为。我的目标是将

首页

博学

6Ren·AI

商城

java | XML 按大小分割 | HashMap 性能问题 | OOM 堆空间错误