gpt4 book ai didi

binary-data - 在非语言文本文件中搜索最常出现的模式

转载 作者:行者123 更新时间:2023-12-01 04:12:52 25 4
gpt4 key购买 nike

我不完全确定这个答案属于这里,但我希望在 ascii 文件中找到模式。

文件本身由字母数字字符组成,我只想检查文件中的重复模式,不考虑分隔符和自然语言单词或含义,只获取最常用的重复序列。

我似乎没有找到任何已经开发的程序可以做到这一点(因为所有程序似乎都可以使用单词,而不仅仅是字符集)。你知道任何可以做到这一点的应用程序吗?

如果没有这样的应用程序,您会如何建议我编写代码?

最佳答案

我不知道有任何现有的程序可以做到这一点,所以我只能推荐编码解决方案。您将不得不稍微修改一下 Trie在它的叶子上有发生次数的计数器。然后任务变得微不足道:从所有叶子中找到一个具有最大计数器的叶子;从根到此叶子的路径将是您搜索的子序列(模式)。

也仅供引用:Longest common substring problem

(我知道这个问题是针对 SO 的,我的回答必须是评论,但我只是没有足够的声誉来发表评论。)

关于binary-data - 在非语言文本文件中搜索最常出现的模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5076247/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com