gpt4 book ai didi

java - String.split() 临时对象和垃圾收集

转载 作者:行者123 更新时间:2023-11-30 02:56:53 30 4
gpt4 key购买 nike

在我的项目中,我们需要读取一个非常大的文件,其中每一行都有由特殊字符(“|”)分隔的标识符。不幸的是,我无法使用并行性,因为有必要在一行的最后一个字符与下一行的第一个字符之间进行验证,以决定是否提取它。无论如何,要求非常简单:将行分成标记,分析它们并仅将其中一些存储在内存中。代码很简单,如下所示:

final LineIterator iterator = FileUtils.lineIterator(file)
while(iterator.hasNext()){
final String[] tokens = iterator.nextLine().split("\\|");
//process
}

但是这一小段代码效率非常非常低。 split() 方法生成了太多未收集的临时对象(这里有最好的解释: http://chrononsystems.com/blog/hidden-evils-of-javas-stringsplit-and-stringr

出于比较目的:5MB 文件在文件处理结束时使用了大约 35MB 内存。

我测试了一些替代方案,例如:

但它们似乎都不够高效。使用 JProfiler,我可以看到临时对象使用的内存量过高(使用了 35 mb,但有效对象实际上只使用了 15 mb)。

然后我决定做一个简单的测试:读取 50,000 行后,显式调用 System.gc()。然后,在进程结束时,内存使用量从 35 mb 减少到 16 mb。我测试了很多很多次,但总是得到相同的结果。

我知道调用 System.gc () 是一种不好的做法(如 Why is it bad practice to call System.gc()? 中所示)。但是,在 split() 方法可以被调用数百万次的情况下,是否还有其他替代方案?

[更新]我仅使用 5 mb 文件用于测试目的,但系统应该处理更大的文件(500Mb ~ 1Gb)

最佳答案

这里要说的第一件也是最重要的事情是,不要担心。 JVM 消耗了 35MB 的 RAM,因为它的配置表明这个量足够低。当其高效的GC算法决定时间时,它会将所有这些对象扫走,没问题。

如果您确实愿意,您可以使用内存管理选项调用 Java(例如 java -Xmxn=...)——我建议除非您运行的系统非常有限,否则不值得这样做硬件。

但是,如果您确实想避免每次处理一行时都分配 String 数组,有很多方法可以做到这一点。

一种方法是使用StringTokenizer:

    StringTokenizer st = new StringTokenizer(line,"|");

while (st.hasMoreElements()) {
process(st.nextElement());
}

您还可以避免一次消耗一行。将文件作为流获取,使用 StreamTokenizer,并以这种方式一次使用一个 token 。

阅读 ScannerBufferedInputStreamReader 的 API 文档——这方面有很多选择,因为你正在做一些基本的东西。

但是,这些都不会导致 Java 更快或更积极地进行 GC。如果 JRE 不认为自己内存不足,它就不会收集任何垃圾。

尝试写这样的东西:

public static void main(String[] args) {
Random r = new Random();
Integer x;
while(true) {
x = Integer.valueof(r.nextInt());
}
}

运行它并在运行时观察 JVM 的堆大小(如果使用量增长太快而无法看到,请 hibernate )。每次循环时,Java 都会创建一个 Integer 类型的“临时对象”。所有这些都保留在堆中,直到 GC 决定需要清除它们。您会发现,只有达到一定级别,它才会执行此操作。但当它达到这个水平时,它将很好地确保永远不会超过其限制。

关于java - String.split() 临时对象和垃圾收集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37007189/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com