gpt4 book ai didi

java - 调试 Java 内存不足错误

转载 作者:搜寻专家 更新时间:2023-11-01 01:46:19 24 4
gpt4 key购买 nike

我仍然是一个相对较新的程序员,我在 Java 中一直遇到的一个问题是内存不足错误。我不想使用-Xmx增加内存,因为我觉得错误是由于编程不当造成的,我想改进我的编码而不是依赖更多内存。

我所做的工作涉及处理大量文本文件,每个压缩后大约 1GB。我这里的代码是为了遍历一个目录,新的压缩文本文件将被删除。它打开第二个最新的文本文件(不是最新的,因为它仍在写入),并使用 Jsoup 库解析文本文件中的某些字段(字段用自定义分隔符分隔:“|nTa|”指定一个新列,“|nLa|”指定一个新行)。

我觉得应该没有理由使用大量的内存。我打开一个文件,扫描它,解析相关位,将解析后的版本写入另一个文件,关闭文件,然后移动到下一个文件。我不需要将整个文件存储在内存中,我当然不需要将已经处理过的文件存储在内存中。

当我开始解析第二个文件时出现错误,这表明我没有处理垃圾回收。请查看代码,看看您是否能发现我正在做的事情,这意味着我使用的内存比我应该使用的要多。我想学习如何正确执行此操作,以免出现内存错误!

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Scanner;
import java.util.TreeMap;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;

import org.jsoup.Jsoup;

public class ParseHTML {

public static int commentExtractField = 3;
public static int contentExtractField = 4;
public static int descriptionField = 5;

public static void main(String[] args) throws Exception {

File directoryCompleted = null;
File filesCompleted[] = null;

while(true) {

// find second most recent file in completed directory
directoryCompleted = new File(args[0]);
filesCompleted = directoryCompleted.listFiles();

if (filesCompleted.length > 1) {

TreeMap<Long, File> timeStamps = new TreeMap<Long, File>(Collections.reverseOrder());

for (File f : filesCompleted) {
timeStamps.put(getTimestamp(f), f);
}

File fileToProcess = null;

int counter = 0;

for (Long l : timeStamps.keySet()) {
fileToProcess = timeStamps.get(l);
if (counter == 1) {
break;
}
counter++;
}

// start processing file
GZIPInputStream gzipInputStream = null;

if (fileToProcess != null) {
gzipInputStream = new GZIPInputStream(new FileInputStream(fileToProcess));
}

else {
System.err.println("No file to process!");
System.exit(1);
}

Scanner scanner = new Scanner(gzipInputStream);
scanner.useDelimiter("\\|nLa\\|");

GZIPOutputStream output = new GZIPOutputStream(new FileOutputStream("parsed/" + fileToProcess.getName()));

while (scanner.hasNext()) {
Scanner scanner2 = new Scanner(scanner.next());
scanner2.useDelimiter("\\|nTa\\|");

ArrayList<String> row = new ArrayList<String>();

while(scanner2.hasNext()) {
row.add(scanner2.next());
}

for (int index = 0; index < row.size(); index++) {
if (index == commentExtractField ||
index == contentExtractField ||
index == descriptionField) {
output.write(jsoupParse(row.get(index)).getBytes("UTF-8"));
}

else {
output.write(row.get(index).getBytes("UTF-8"));
}

String delimiter = "";

if (index == row.size() - 1) {
delimiter = "|nLa|";
}

else {
delimiter = "|nTa|";
}

output.write(delimiter.getBytes("UTF-8"));
}
}

output.finish();
output.close();
scanner.close();
gzipInputStream.close();


}
}
}

public static Long getTimestamp(File f) {
String name = f.getName();
String removeExt = name.substring(0, name.length() - 3);
String timestamp = removeExt.substring(7, removeExt.length());
return Long.parseLong(timestamp);
}

public static String jsoupParse(String s) {
if (s.length() == 4) {
return s;
}

else {
return Jsoup.parse(s).text();
}
}
}

我如何确保当我完成对象时,它们被销毁并且不使用任何资源?例如,每次关闭 GZIPInputStream、GZIPOutputStream 和 Scanner 时,我如何才能确保它们已完全销毁?

郑重声明,我得到的错误是:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Arrays.java:2882)
at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:100)
at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:572)
at java.lang.StringBuilder.append(StringBuilder.java:203)
at org.jsoup.parser.TokeniserState$47.read(TokeniserState.java:1171)
at org.jsoup.parser.Tokeniser.read(Tokeniser.java:42)
at org.jsoup.parser.TreeBuilder.runParser(TreeBuilder.java:101)
at org.jsoup.parser.TreeBuilder.parse(TreeBuilder.java:53)
at org.jsoup.parser.Parser.parse(Parser.java:24)
at org.jsoup.Jsoup.parse(Jsoup.java:44)
at ParseHTML.jsoupParse(ParseHTML.java:125)
at ParseHTML.main(ParseHTML.java:81)

最佳答案

我没有花很长时间分析您的代码(没有什么突出的),但是一个好的通用开始是让您自己熟悉免费的 VisualVM工具。 This是其使用的合理指南,尽管还有更多文章。

在我看来,有更好的商业分析器——JProfiler 就是其中之一——但它至少会向您显示大部分内存分配给哪些对象/类,以及可能导致这种情况发生的方法堆栈跟踪。更简单地说,它会向您显示随时间变化的堆分配情况,您可以使用它来判断您是否无法清除某些内容,或者它是否是不可避免的尖峰。

我建议这样做而不是查看代码的细节,因为它是一种有用的诊断技能。

关于java - 调试 Java 内存不足错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9200856/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com