gpt4 book ai didi

java - 在非常短的时间内在 Java 中搜索非常大的 ARPA 文件

转载 作者:行者123 更新时间:2023-11-29 09:22:50 25 4
gpt4 key购买 nike

我有一个大约 1 GB 的 ARPA 文件。我必须在不到 1 分钟的时间内在其中进行搜索。我已经搜索了很多,但我还没有找到合适的答案。我想我不必阅读整个文件。我只需要跳转到文件中的特定行并阅读整行。 ARPA 文件的行长度不同。我不得不提的是,ARPA 文件具有特定的格式。

文件格式

\data\ngram 1=19ngram 2=234ngram 3=1013\1-grams:-1.7132 puluh -3.8008-1.9782 satu -3.8368\2-grams:-1.5403 dalam dua -1.0560-3.1626 dalam ini 0.0000\3-grams:-1.8726 itu dan tiga-1.9654 itu dan untuk\end\

如您在示例文件中所见,我有 19 行 1-gram、234 行 2-gram 和 1013 行 3-gram。我将行的字符串部分提供给程序,并获取字符串左侧和右侧的数字。输入的字符串可以帮助我知道我必须在文件的哪一部分进行搜索。我必须找到一种不完全读取文件的方法,因为我的文件非常大,读取整个文件需要很多时间。我认为在不使用索引文件并访问整行的情况下跳转到文件中的特定行是一种很好的方法。

如果你能帮我完成我的作业就太好了。

最佳答案

我不知道 ARPA 文件是什么。我假设它是某种包含文本的文件。

你要做的是首先索引文件,这样你就可以将文件中的行号与字符串相关联。

这是一个大文件,因此您可能会将索引存储在一个单独的文件中。

首先,在用户搜索之前,您需要运行索引。然后,您将在索引中搜索用户正在查找的字符串所在的行号。

关于java - 在非常短的时间内在 Java 中搜索非常大的 ARPA 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5127640/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com