作者热门文章
- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
如何在文本文件中找到 n 个最常出现的模式。你会使用什么数据结构?在这里,模式不是单个单词而是单词序列。例如,“这是一个”可能是文件中经常出现的模式。
后续问题:
PS:我知道使用哈希表或 BST 可以相对容易地找到最常出现的单词。只是想不出我们如何找到多词字符串。
最佳答案
短语频率的一种方法是使用专门的数据结构,例如后缀数组(请参阅 http://en.wikipedia.org/wiki/Suffix_array,如果您喜欢学术论文,请参阅 http://www.mitpressjournals.org/doi/pdf/10.1162/089120101300346787)。
如果您有数 GB 的数据需要索引,请在大集群上使用 hadoop! :-)
关于algorithm - 搜索文件中最常出现的模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6805596/
我是一名优秀的程序员,十分优秀!