gpt4 book ai didi

algorithm - 搜索文件中最常出现的模式

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:55:08 24 4
gpt4 key购买 nike

如何在文本文件中找到 n 个最常出现的模式。你会使用什么数据结构?在这里,模式不是单个单词而是单词序列。例如,“这是一个”可能是文件中经常出现的模式。

后续问题:

  • 如果文件非常大(以 GB 为单位)怎么办?
  • 如果文件包含多种语言(英语、日语等)的文本怎么办?

PS:我知道使用哈希表或 BST 可以相对容易地找到最常出现的单词。只是想不出我们如何找到多词字符串。

最佳答案

短语频率的一种方法是使用专门的数据结构,例如后缀数组(请参阅 http://en.wikipedia.org/wiki/Suffix_array,如果您喜欢学术论文,请参阅 http://www.mitpressjournals.org/doi/pdf/10.1162/089120101300346787)。

如果您有数 GB 的数据需要索引,请在大集群上使用 hadoop! :-)

关于algorithm - 搜索文件中最常出现的模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6805596/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com