gpt4 book ai didi

java - 如何从一个非常大的文件中读取行号 x 到 (x+y)

转载 作者:行者123 更新时间:2023-11-29 04:28:32 24 4
gpt4 key购买 nike

我有一个非常大的文本文件,其中的每一行都必须被解析。我想通过 x+100000 读取第 x 行并将每一行添加到一个列表中,使得 list.size <= 100000。然后该列表将返回给调用方法进行处理,然后调用方法将从上次停止的地方开始请求下一个 100k 行。

下面的代码是使用 BufferedReader 的一个版本。我返回前 100k 行正常,但在下一次调用中,从第 100k+1 行开始,它在第 150k 行左右开始变慢,在第 165k 行附近导致 OutOfMemoryError。我四处寻找一种方法来清空缓冲区,一旦它到达我想开始添加到列表的行,但我找不到任何相关信息。我也试图找到一种方法来跳过 x 行,但我找不到任何关于它的方法。

public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {

List<MyModel> result = new ArrayList<>();
try (BufferedReader br = new BufferedReader(new FileReader(inputFile))) {

String line = null;
int row = 0;
int iteration = 0;

try {
while (((line = br.readLine()) != null) && iteration < MAX_ROWS) {
row++;
LOGGER.info("row: " + row + ", iteration: " + iteration);
if (row > startLine && iteration < MAX_ROWS) {
MyModel model = this.fileReader.populateMyModel(line);
model.setFileChecksum(checksum);
result.add(model);
iteration++;
}
if (iteration >= MAX_ROWS) {
break;
}
}
} catch (Exception e) {

throw new FileReaderException("Failed to read line " + iteration + " of " + inputFile.getAbsolutePath(), e);
}
} catch (FileNotFoundException e1) {
throw new FileReaderException("Could not find file '" + inputFile.getAbsolutePath() + "'.", e1);
} catch (IOException e1) {
throw new FileReaderException("Could not read file '" + inputFile.getAbsolutePath() + "'.", e1);
}

return result;
}

在尝试找出如何跳过行时,我遇到了 Java 8 Stream 读取文件的方式,下面的代码是我尝试以这种方式处理它的方法。这个在第一次调用时也很有效,返回前 100k 行。对于从第 100k+1 行开始的第二次调用,它返回“java.lang.IllegalStateException:流已被操作或关闭”。此外,我只想读取 x 到 x+100k 行然后返回,而不是循环遍历文件的所有行。我是这个 Stream 对象的新手,但使用它似乎应该提供一个解决方案。

public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {
List<MyModel> result = new ArrayList<>();

try (Stream<String> lines = Files.lines(inputFile.toPath(), Charset.defaultCharset())) {
lines.skip(startLine);
lines
.filter(line -> result.size() <= 100000)
.forEach(line -> {
result.add(this.fileReader.populateMyModel(line));
if (result.size() % 10000 == 0) {
LOGGER.info("result size: " + result.size());
}
});
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

return result;
}

任何建议都会有所帮助。

最佳答案

当你写的时候:

lines.skip(startLine)

您创建了一个新流,但没有保存对它的引用,因此操作失败。

我怀疑你想要这样的东西:

return lines.skip(startLine)
.limit(100000)
.map(fileReader::populateMyModel)
.collect(toList());

关于java - 如何从一个非常大的文件中读取行号 x 到 (x+y),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44975773/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com