- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在处理 XML 文档以提交给英国的 HMRC。这些文档需要进行处理并为其生成哈希码。
我编写了下面的代码,它适用于小型文档。但是,如果我处理一个 60mb 的 xml 文件,它会使用大约 1.2gb 的内存。
我已经查看过是否可以提高效率,但什么也看不到。它需要能够删除 IRMark 元素(如果它已经存在)。
非常感谢任何想法。谢谢。
/*
** Generates the HMRC IRMARK as required.
*/
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.PrintWriter;
import java.io.StringWriter;
import java.io.UnsupportedEncodingException;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import javax.xml.xpath.*;
import org.apache.xml.security.Init;
import org.apache.xml.security.c14n.CanonicalizationException;
import org.apache.xml.security.c14n.Canonicalizer;
import org.apache.xml.security.c14n.InvalidCanonicalizerException;
import org.bouncycastle.util.encoders.Base64;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.xml.sax.SAXException;
public class IRMarkDOS
{
/**
* @param args
*/
public static void main(String[] args)
{
// Initialise Apache XML tools
Init.init();
// Start tracking execution time
long start = System.currentTimeMillis();
try
{
// Validate/parse the command line
if (args.length != 3)
{
System.out.println("INCORRECT PARAMETERS SPECIFIED" + System.getProperty("line.separator") + " Specify IRMark.exe <InputFile> <OutputFile> " + "<TaxNamespace>");
return;
}
// Set input/output variables
String sInput = args[0];
String sOutput = args[1];
String sTaxNamespace = args[2];
// Read the XML Document
//Document xmlDoc = IRMarkDOS.processXML(sInput, sTaxNamespace);
String xml = IRMarkDOS.processXML(sInput, sTaxNamespace);
System.gc();
// Generate the IRMark
String strIRMark = IRMarkDOS.generateIRMark(xml);
// Write to file
PrintWriter out = new PrintWriter(new FileOutputStream(sOutput));
out.println(strIRMark);
out.close();
System.out.println("IRmark64: " + strIRMark);
// Output execution time
long end = System.currentTimeMillis();
System.out.println("Execution Time " + ((end-start) / 1000) + " seconds, " + (end-start) + " milliseconds");
}
catch (RuntimeException ex)
{
System.out.println(ex.getMessage());
System.exit(1);
}
catch (OutOfMemoryError ex)
{
System.out.println(ex.getMessage());
System.exit(1);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
*
* Processes the specified XML document
*
* @param sInput - XML Document
* @param sTaxNamespace - TaxNamespace
* @param sEnvelopeNamespace - EnvelopeNamespace
* @return
*/
private static String processXML (String sInput, String sTaxNamespace)
{
try
{
// Read XML
File xmlDocument=new File(sInput);
DocumentBuilderFactory xmlDomFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder xmlBuilder = xmlDomFactory.newDocumentBuilder();
Document xmlDoc = xmlBuilder.parse(xmlDocument);
// Setup XPath
XPathFactory factory=XPathFactory.newInstance();
XPath xPath=factory.newXPath();
Node body = (Node) xPath.evaluate("/GovTalkMessage/Body", xmlDoc, XPathConstants.NODE);
//Get IRMark and remove if exists
Node irmark = (Node) xPath.evaluate("/GovTalkMessage/Body/IRenvelope/IRheader/IRmark", xmlDoc, XPathConstants.NODE);
if (irmark != null)
{
System.out.println("Original IRMark: " + irmark.getTextContent());
irmark.getParentNode().removeChild(irmark);
}
irmark = null;
// Create new doc for body and add envelope namespace to body as required
xmlDoc = null;
xmlDoc = xmlBuilder.newDocument();
Node tmp = xmlDoc.importNode(body, true);
xmlDoc.appendChild(tmp);
tmp = null;
// Add namespace to body element
xmlDoc.getDocumentElement().setAttributeNS("http://www.w3.org/2000/xmlns/", "xmlns", "http://www.govtalk.gov.uk/CM/envelope");
return IRMarkDOS.getOuterXml(xmlDoc);
}
catch (RuntimeException ex)
{
System.out.println(ex.getMessage());
System.exit(1);
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (XPathExpressionException e) {
e.printStackTrace();
}
return null;
}
/**
* Generates the IRMark for the specified XML Document
*
* @param xmlDoc - XML Document to generate the IRMark for
* @return - The generated IRMark
*/
private static String generateIRMark(String bodyText1)
{
// Get XML string
//String bodyText1 = IRMarkDOS.getOuterXml(xmlDoc);
// Final Data Tweaks
bodyText1 = bodyText1.toString();
bodyText1 = bodyText1.replace("
", "");
bodyText1 = bodyText1.replace("\r\n", "\n");
bodyText1 = bodyText1.replace("\r", "\n");
try
{
// Convert the final document back into a byte array encoded as UTF8
byte[] bodyBytes = bodyText1.getBytes("UTF8");
// Canonicalisation to C14n
Canonicalizer c14n = Canonicalizer.getInstance("http://www.w3.org/TR/2001/REC-xml-c14n-20010315");
byte[] bodyCanonical = c14n.canonicalize(bodyBytes);
// Generate SHA 1 and convert to Base64
MessageDigest md1 = MessageDigest.getInstance("SHA");
md1.update(bodyCanonical); //bodyBytes
byte[] digest1 = md1.digest();
String strIRmark = new String(Base64.encode(digest1));
return strIRmark;
}
catch (RuntimeException ex)
{
System.out.println(ex.getMessage());
System.exit(1);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
} catch (InvalidCanonicalizerException e) {
e.printStackTrace();
} catch (CanonicalizationException e) {
e.printStackTrace();
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (NoSuchAlgorithmException e) {
e.printStackTrace();
}
return "";
}
/**
* Converts a XML Node to a string representation
*
* @param node - XML Node to convert to String
* @return - A string representation of the XML Node
*/
private static String getOuterXml(Node node)
{
try
{
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty("omit-xml-declaration", "yes");
StringWriter writer = new StringWriter();
transformer.transform(new DOMSource(node), new StreamResult(writer));
return writer.toString();
}
catch (Exception e)
{
e.printStackTrace();
}
return "";
}
}
最佳答案
您可以尝试只使用 SAX 解析器并响应特定元素的打开和关闭事件。或许您可以完成您需要做的事情,而无需以这种方式一次将整个 DOM 保存在内存中。
关于Java XML Dom 内存密集型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11368650/
我在具有 2CPU 和 3.75GB 内存 (https://aws.amazon.com/ec2/instance-types/) 的 c3.large Amazon EC2 ubuntu 机器上运
我想通过用户空间中的mmap-ing并将地址发送到内核空间从用户空间写入VGA内存(视频内存,而不是缓冲区),我将使用pfn remap将这些mmap-ed地址映射到vga内存(我将通过 lspci
在 Mathematica 中,如果你想让一个函数记住它的值,它在语法上是很轻松的。例如,这是标准示例 - 斐波那契: fib[1] = 1 fib[2] = 1 fib[n_]:= fib[n] =
我读到动态内存是在运行时在堆上分配的,而静态内存是在编译时在堆栈上分配的,因为编译器知道在编译时必须分配多少内存。 考虑以下代码: int n; cin>>n; int a[n]; 如果仅在运行期间读
我是 Python 的新手,但我之前还不知道这一点。我在 for 循环中有一个基本程序,它从站点请求数据并将其保存到文本文件但是当我检查我的任务管理器时,我发现内存使用量只增加了?长时间运行时,这对我
我正在设计一组数学函数并在 CPU 和 GPU(使用 CUDA)版本中实现它们。 其中一些函数基于查找表。大多数表占用 4KB,其中一些占用更多。基于查找表的函数接受一个输入,选择查找表的一两个条目,
读入一个文件,内存被动态分配给一个字符串,文件内容将被放置在这里。这是在函数内部完成的,字符串作为 char **str 传递。 使用 gdb 我发现在行 **(str+i) = fgetc(aFil
我需要证实一个理论。我正在学习 JSP/Java。 在查看了一个现有的应用程序(我没有写)之后,我注意到一些我认为导致我们的性能问题的东西。或者至少是其中的一部分。 它是这样工作的: 1)用户打开搜索
n我想使用memoization缓存某些昂贵操作的结果,这样就不会一遍又一遍地计算它们。 两个memoise和 R.cache适合我的需要。但是,我发现缓存在调用之间并不可靠。 这是一个演示我看到的问
我目前正在分析一些 javascript shell 代码。这是该脚本中的一行: function having() { memory = memory; setTimeout("F0
我有一种情况,我想一次查询数据库,然后再将整个数据缓存在内存中。 我得到了内存中 Elasticsearch 的建议,我用谷歌搜索了它是什么,以及如何在自己的 spring boot 应用程序中实现它
我正在研究 Project Euler (http://projecteuler.net/problem=14) 的第 14 题。我正在尝试使用内存功能,以便将给定数字的序列长度保存为部分结果。我正在
所以,我一直在做 Java 内存/注意力游戏作业。我还没有达到我想要的程度,它只完成了一半,但我确实让 GUI 大部分工作了......直到我尝试向我的框架添加单选按钮。我认为问题可能是因为我将 JF
我一直在尝试使用 Flask-Cache 的 memoize 功能来仅返回 statusTS() 的缓存结果,除非在另一个请求中满足特定条件,然后删除缓存。 但它并没有被删除,并且 Jinja 模板仍
我对如何使用 & 运算符来减少内存感到非常困惑。 我可以回答下面的问题吗? clase C{ function B(&$a){ $this->a = &$a; $thi
在编写代码时,我遇到了一个有趣的问题。 我有一个 PersonPOJO,其 name 作为其 String 成员之一及其 getter 和 setter class PersonPOJO { priv
在此代码中 public class Base { int length, breadth, height; Base(int l, int b, int h) { l
Definition Structure padding is the process of aligning data members of the structure in accordance
在 JavaScript Ninja 的 secret 中,作者提出了以下方案,用于在没有闭包的情况下内存函数结果。他们通过利用函数是对象这一事实并在函数上定义一个属性来存储过去调用函数的结果来实现这
我正在尝试找出 map 消耗的 RAM 量。所以,我做了以下事情;- Map cr = crPair.collectAsMap(); // 200+ entries System.out.printl
我是一名优秀的程序员,十分优秀!