c++ - 如何使用后缀数组和 LCP 数组查找字符串的子字符串？-6ren

c++ - 如何使用后缀数组和 LCP 数组查找字符串的子字符串？

转载作者：塔克拉玛干更新时间：2023-11-03 04:41:57

26

4

如果我们按字典顺序排列一个字符串的所有不同子串，我们需要第i个子串

1.) 是否可以使用 suffix array 找到它和 LCP array ？

2.) 如果是，我们该怎么做？是否可以在 O(Nlog^N) 中完成，同时使用时间复杂度为 O(Nlog^2N) 的 Manber & Myers 创建后缀数组，或者在使用时间复杂度为 O(N) 的 kasai 算法创建 LCP 数组时)?

最佳答案

是的，可以使用后缀数组和 LCP 数组来完成。

假设您知道如何计算后缀数组和 LCP 数组。

设p[]表示后缀数组，lcp[]表示LCP数组。

创建一个数组，它存储不同子字符串的数量，直到 i'th 等级后缀。这可以使用此公式计算。有关详细信息，请参阅 Here

令cum[] 表示累积数组，其计算如下:

cum[0] = n - p[0];
for i = 1 to n do:
    cum[i] = cum[i-1] + (n - p[i] - lcp[i])

现在要查找 i'th 子字符串，只需在累积数组 cum[] 中找到 i 的下限即可获得排名后缀从你的子字符串应该开始的地方打印所有字符直到

的长度

i - cum[pos-1] + lcp[pos] // i lies between cum[pos-1] and cum[pos] so for finding 
                          // length of sub string starting from cum[pos-1] we should 
                          // subtract cum[pos-1] from i and add lcp[pos] as it is 
                          // common string between current rank suffix and 
                          // previous rank suffix.

其中 pos 是下界返回的值。

以上整个过程可以总结如下:

string ithSubstring(int i){
    pos = lower_bound(cum , cum + n , i);
    return S.substr(arr[pos] , i - cum[pos-1] + lcp[pos]);// considering S as original character string 
}

对于后缀数组、LCP 和以上逻辑的完整实现，您可以参见 Here

关于c++ - 如何使用后缀数组和 LCP 数组查找字符串的子字符串？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37775372/

26

4

0

文章推荐： c++ - SPOJ :ENIGMATH - PLAY WITH MATH

文章推荐： java - 为什么 (int)(14/13 - 0.001) 产生 0 而不是 1？

文章推荐： Java NIO - 内存映射文件

algorithm - 我们如何从 LCP 阵列构建 LCP-LR 阵列？
求给定字符串P(长度m)在文本T(长度N)中出现的次数我们必须对 T 的后缀数组使用二分查找。使用标准二进制搜索(没有 LCP 信息)的问题是，在您需要进行的每次 O(log N) 比较中，您将
algorithm - 从后缀数组制作 LCP
我正在学习后缀数组，并且成功地学习了如何在 O(nlognlogn) 时间内制作后缀数组来自这个 Tutorial . 现在我想知道如何在 O(nlogn) 时间或更好的时间内从我的后缀数组创建 LC
python - 具有稀疏矩阵的 LCP
我用大写字母表示矩阵，用小写字母表示向量。我需要为向量求解以下线性不等式系统 v : min(rv - (u + Av), v - s) = 0 哪里0是一个零向量。哪里r是标量，u和 s是向量，
c++ - 如何从 LCP 数组和后缀数组构造后缀树
标题差不多。我使用 DC3 算法在 O(n) 时间内创建了一个后缀数组。然后，我在 O(n) 时间内使用 Kasai 算法创建了一个 LCP 数组。现在我需要从我拥有的两个数组创建一个后缀树。如何做
c++ - 如何使用后缀数组和 LCP 数组查找字符串的子字符串？
如果我们按字典顺序排列一个字符串的所有不同子串，我们需要第i个子串 1.) 是否可以使用 suffix array 找到它和 LCP array ？ 2.) 如果是，我们该怎么做？是否可以在 O(Nl
algorithm - 了解使用 LCP 阵列进行模式匹配的算法
前言:我的问题主要是算法题，所以即使你不熟悉后缀和 LCP 数组，你也可以帮助我。在this论文描述了如何有效地使用后缀和 LCP 数组进行字符串模式匹配。我了解 SA 和 LCP 的工作原理以及
c++ - 这个从后缀数组获取 LCP 的代码是如何工作的？
有人能解释一下从后缀数组构造 LCP 的代码是如何工作的吗？ suffixArr[]是一个数组，使得 suffixArr[i]保存字符串中具有等级 i 的后缀的索引值。 void LCPconstr
c# - LCP 的投影高斯-赛德尔
我正在寻找用于求解 linear complementarity problem 的投影高斯-赛德尔算法的 C# 实现.到目前为止，我在 Bullet 中找到了用 C++ 编写的那个。库，但不幸的是它
LCP 07. 传递信息 (Python 实现)
题目：小朋友 A 在和 ta 的小伙伴们玩传信息游戏，游戏规则如下： 1、有 n 名玩家，所有玩家编号分别为 0 ～ n-1，其中小朋友 A 的编号为 0 2、每个玩家都有固定的若干个可传信息的其他
list - 字符串列表的最长公共(public)前缀 (LCP)
lcs([ H|L1],[ H|L2],[H|Lcs]) :- !, lcs(L1,L2,Lcs). lcs([H1|L1],[H2|L2],Lcs):- lcs( L1
javascript - 最大内容绘制 (LCP) 小于第一个内容绘制 (FCP)
我的公司已要求我向我们的网站添加一些网站速度指标，以帮助确定不是最佳的用户体验。使用自定义 HTML Google Tag Manager (GTM) 标签，我为 First Contentful P
c++ - 使用后缀数组和 LCP(-LR) 实现字符串模式匹配
在过去的几周里，我试图找出如何有效地在另一个字符串中找到一个字符串模式。我发现很长一段时间以来，最有效的方法一直是使用后缀树。然而，由于这种数据结构在空间上非常昂贵，我进一步研究了后缀数组的使用(它
html - 如何降低我在 PageSpeed Insights 上的 LCP 分数？
上下文: 我最近为一个客户(我 18 岁)完成了我的第一个元素，最近我一直在努力改善网络活力以提升他们的搜索引擎优化。我遇到的最大问题是我的 Largest Contentful Paint 太高了
reactjs - 灯塔中最大的内容涂料 (LCP) 是 p 标签。 (使用 Gatsby )
我不知道为什么我的 LCP 会是一个 p 标签，我也不知道我会做些什么来减小它的大小。有时它会达到 2.6 秒并给出黄色评级(而不是绿色)。这是 p 标签。所有这些类都是引导类。 {aboutTex
algorithm - 性能问题，大字符串的编辑距离 LCP vs Levenshtein vs SIFT
所以我正在尝试计算两个大字符串之间的距离(大约 20-100)。障碍是性能，我需要运行 20k 距离比较。 (需要几个小时) 经过调查，我遇到了几个算法，我很难决定选择哪个。 (基于性能 VS 准确性
performance - LightHouse 和 Performance 之间的 LCP 时间 - Google Chrome
使用 google chrome chrome dev，我正在为移动设备运行灯塔分析。 Lighthouse 显示最大内容绘制 (LCP) 的延迟为 7.0 秒: 我决定深入研究并单击:“查看原始跟踪
string - 寻找想法 : lexicographically sorted suffix array of many different strings compute efficiently an LCP array
我不想直接解决这个问题的根源，但就是这个问题 link : 所以我接收字符串并将它们添加到一个后缀数组中，该数组在内部实现为一个排序集，然后我获得的是两个给定字符串的字典顺序列表。 S1 = "ban

首页

博学

6Ren·AI

商城

c++ - 如何使用后缀数组和 LCP 数组查找字符串的子字符串？