gpt4 book ai didi

algorithm - 在 25 GB 的语料库中搜索单个单词

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:29:02 25 4
gpt4 key购买 nike

我必须在 25 GB 的维基百科语料库中搜索一个单词。我使用了 grep,但它需要很多时间。是否有可以快速搜索的有效且简单的表示形式。另外,我想找到完全匹配。

谢谢。

最佳答案

你可能想做一个从单词到位置列表(字节码偏移量)的映射索引。单词列表将按字母顺序排序。然后,您可以获得一个二级索引,其中包含某些字母在这个大单词列表中的起始位置。

Lazy hash           |   Word index               |  Corpus
aaa starts at X | aaa | lorem ipsum dolor
aab starts at Y | ... | sit amet .....
aac ... | and 486, 549, 684, ... | ...
... ... | |
zzz ... | |

这是我系自然语言教授提倡的方式(我们在算法类(class)中做这个练习作为实验室)。

关于algorithm - 在 25 GB 的语料库中搜索单个单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2839295/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com