gpt4 book ai didi

java - 使用 VTD-XML 优化解析 XML 文件的速度

转载 作者:搜寻专家 更新时间:2023-11-01 03:43:17 24 4
gpt4 key购买 nike

我正在使用 VTD-XML 解析大量 XML 文件。我不确定我是否正确使用了该工具 - 我认为是正确的,但解析文件花费的时间太长了。

xml 文件(DATEXII 格式)是 HD 上的压缩文件。解压后它们大约有 31MB 大,包含超过 850.000 行文本。我只需要提取几个字段并将它们存储在数据库中。

import org.apache.commons.lang3.math.NumberUtils;
...

private static void test(File zipFile) throws XPathEvalException, NavException, XPathParseException {
// init timer
long step1=System.currentTimeMillis();

// open file to output extracted fragments
VTDGen vg = new VTDGen();
vg.parseZIPFile(zipFile.getAbsolutePath(), zipFile.getName().replace(".zip",".xml"),true);

VTDNav vn = vg.getNav();

AutoPilot apSites = new AutoPilot();
apSites.declareXPathNameSpace("ns1", "http://schemas.xmlsoap.org/soap/envelope/");
apSites.selectXPath("/ns1:Envelope/ns1:Body/d2LogicalModel/payloadPublication/siteMeasurements");
apSites.bind(vn);

long step2=System.currentTimeMillis();
System.out.println("Prep took "+(step2-step1)+"ms; ");

// init variables
String siteID, timeStr;
boolean reliable;
int index, flow, ctr=0;
short speed;
while(apSites.evalXPath()!=-1) {

vn.toElement(VTDNav.FIRST_CHILD, "measurementSiteReference");
siteID = vn.toString(vn.getText());

// loop all measured values of this measurement site
while(vn.toElement(VTDNav.NEXT_SIBLING, "measuredValue")) {
ctr++;

// extract index attribute
index = NumberUtils.toInt(vn.toString(vn.getAttrVal("index")));

// go one level deeper into basicDataValue
vn.toElement(VTDNav.FIRST_CHILD, "basicDataValue");

// we need either FIRST_CHILD or NEXT_SIBLING depending on whether we find something
int next = VTDNav.FIRST_CHILD;
if(vn.toElement(next, "time")) {
timeStr = vn.toString(vn.getText());
next = VTDNav.NEXT_SIBLING;
}

if(vn.toElement(next, "averageVehicleSpeed")) {
speed = NumberUtils.toShort(vn.toString(vn.getText()));
next = VTDNav.NEXT_SIBLING;
}

if(vn.toElement(next, "vehicleFlow")) {
flow = NumberUtils.toInt(vn.toString(vn.getText()));
next = VTDNav.NEXT_SIBLING;
}

if(vn.toElement(next, "fault")) {
reliable = vn.toString(vn.getText()).equals("0");
}

// insert into database here...

if(next==VTDNav.NEXT_SIBLING) {
vn.toElement(VTDNav.PARENT);
}
vn.toElement(VTDNav.PARENT);
}

}
System.out.println("Loop took "+(System.currentTimeMillis()-step2)+"ms; ");
System.out.println("Total number of measured values: "+ctr);
}

我的 XML 文件的上述函数的输出是:

Prep took 25756ms; 
Loop took 26889ms;
Total number of measured values: 112611

现在没有数据实际插入到数据库中。现在的问题是我每分钟都会收到其中一个文件。现在总解析时间将近 1 分钟,而且因为下载文件大约需要 10 秒,而且我需要将内容存储在数据库中,所以我现在的运行速度落后于实时。

有什么办法可以加快速度吗?我尝试过但没有帮助的事情:

  • 对所有领域使用自动驾驶仪,这实际上使第二步慢了 30000 毫秒
  • 自己解压文件并将字节数组解析为VTD,这没有任何区别
  • 自己使用 BufferedReader readLine() 循环文件,但这也不够快

有没有人认为有可能加快速度,或者我是否需要开始考虑更重的机器/多线程?当然,每分钟 850.000 行(每天 12 亿行)很多,但我仍然觉得解析 31MB 的数据不应该花费一分钟......

最佳答案

您可以尝试立即解压缩文件夹并将每个 xml 文件的值存储在一个数组中

File[] files = new File("foldername").listFiles();

然后你可以创建一个遍历每个文件的循环,我不确定这是否会加快速度,但值得一试。

关于java - 使用 VTD-XML 优化解析 XML 文件的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9267196/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com