gpt4 book ai didi

java - 在JAVA中多次处理大文件

转载 作者:行者123 更新时间:2023-12-03 06:38:52 25 4
gpt4 key购买 nike

我有一个文件 A,其中包含大约 4000 万条记录。我有另一个文件 B,其中包含大约 7000 万条记录。现在我必须迭代文件 A,对于每个记录搜索是否文件 B 中有条目。如果有,则将该条目写入文件 C 中。

请就如何在不影响内存且用最短时间实现这一目标的情况下提出建议。我已经尝试过 apache lucene,但它有创建索引的额外开销,因为包含 7000 万条记录的文件 B 每天都会更改(即我们从外部系统获取此文件),每天重新创建索引是非常过分的

最佳答案

将数据作为表拉入mysql或postgres。索引感兴趣的字段并进行连接。

关于java - 在JAVA中多次处理大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32188736/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com