c++ - 使用散列等长比较的子字符串-6ren

c++ - 使用散列等长比较的子字符串

转载作者：行者123 更新时间：2023-12-01 14:52:55

27

4

在我拥有的分配中，对于字符串S，我需要比较两个长度相等的子字符串。如果它们相等，则输出应为"Yes"，如果不相等，则输出应为"No"。给我两个子字符串(a和b)的起始索引，以及子字符串L的长度。

例如，对于S = "Hello"，a = 1，b = 3，L = 2，子字符串为:substring1 = "el"和substring2 = "lo"不相等，因此答案将是"No"。

我认为散列主字符串S的每个子字符串并将它们全部写入内存将是一个很好的方法。这是我为此编写的代码(我尝试实现从我正在参加的Coursera类(class)中学到的知识):

此函数接受任何字符串，并将p和x的值用于哈希事物，然后对给定的字符串执行多项式哈希。

long long PolyHash(string str, long long p, int x){
    long long res = 0;
    for(int i = str.length() - 1; i > -1; i--){
        res = (res * x + (str[i] - 'a' + 1)) % p;
    }
    return res;
}

下面的函数只是预先计算所有哈希，并填充一个称为 ah的数组，该数组在主函数中初始化。数组 ah由 n = string length行和 n = string length列组成(其中一半浪费了，因为我找不到如何使其正确地用作三角形，因此必须使用完整的矩形数组)。假设 n = 7，则 ah[0]-ah[6]是 string[0]-string[6]的哈希值(意味着所有长度为1的子字符串)。 ah[7]-ah[12]是 string[0-1]-string[5-6](意味着长度为2的所有子字符串)的哈希值，依此类推，直到末尾。

void PreComputeAllHashes(string str, int len, long long p, int x, long long* ah){
    int n = str.length();
    string S = str.substr(n - len, len);
    ah[len * n + n - len] = PolyHash(S, p, x);
    long long y = 1;
    for(int _ = 0; _ < len; _++){
        y = (y * x) % p;
    }
    for(int i = n - len - 1; i > -1; i--){
        ah[n * len + i] = (x * ah[n * len + i + 1] + (str[i] - 'a' + 1) - y * (str[i + len] - 'a' + 1)) % p;
    }
}

下面是主要功能。我把 p等于一些大质数，而 x则是手工挑选的，有些“随机”的质数。
我将文本作为输入，初始化哈希数组，填充哈希数组，然后将查询作为输入，以回答数组中的所有查询。

int main(){
    long long p = 1e9 + 9;
    int x = 78623;
    string text;
    cin >> text;
    long long* allhashes = new long long[text.length() * text.length()];
    for(int i = 1; i <= text.length(); i++){
        PreComputeAllHashes(text, i, p, x, allhashes);
    }
    int queries;
    cin >> queries;
    int a, b, l;
    for(int _ = 0; _ < queries; _++){
        cin >> a >> b >> l;
        if(a == b){
            cout << "Yes" << endl;
        }else{
            cout << ((allhashes[l * text.length() + a] == allhashes[l * text.length() + b]) ? "Yes" : "No") << endl;
        }
    }
    return 0;
}

但是，在Coursera上进行此分配的测试用例之一抛出了这样的错误:
Failed case #7/14: unknown signal 6 (Time used: 0.00/1.00, memory used: 29396992/536870912.)
我在网上查询了以下内容:

Unknown signal 6 (or 7, or 8, or 11, or some other).This happens when your program crashes. It can be
because of division by zero, accessing memory outside of the array bounds, using uninitialized
variables, too deep recursion that triggers stack overflow, sorting with contradictory comparator,
removing elements from an empty data structure, trying to allocate too much memory, and many other
reasons. Look at your code and think about all those possibilities.

而且我整天都在看我的代码，但仍然无法为该错误提供解决方案。任何帮助解决此问题的方法将不胜感激。

编辑:赋值状态指出输入字符串的长度最多可以为 500000个字符，而查询数则最多可以为 100000。此任务还具有 1 second时间限制，对于每个字符串一个接一个地检查字符来说，这个时间限制非常小。

最佳答案

因此，我对如何降低实现的算法的复杂性进行了一些研究，终于找到了它!事实证明，给定初始字符串的前缀散列，有一种 super 简单的方法(嗯，如果您不考虑其背后的理论，则不是)可以获取任何子字符串的散列值!

您可以阅读有关它的更多信息here，但是我将尝试简要地解释一下。

那么我们该怎么做-我们预先计算前缀子字符串的所有哈希值。
字符串"hello"的前缀子字符串如下:

h
he
hel
hell
hello

一旦有了所有这些前缀子字符串的哈希值，就可以将它们收集在 vector 中，使得:
h[str] = str[0] + str[1] * P + str[2] * P^2 + str[3] * P^3 + ... + str[N] * P^N
其中P是任何质数(我选择了 p = 263)
然后，我们需要一个较高的值，我们将对所有值取模，以使事情不会太大。我将选择 m = 10^9 + 9这个数字。

首先，我创建一个 vector 来保存 P的预先计算出的幂:

vector<long long> p_pow (s.length());
p_pow[0] = 1;
for(size_t i=1; i<p_pow.size(); ++i){
    p_pow[i] = (m + (p_pow[i-1] * p) % m) % m;
}

然后，我计算前缀子字符串的哈希值 vector :

vector<long long> h (s.length());
for (size_t i=0; i<s.length(); ++i){
    h[i] = (m + (s[i] - 'a' + 1) * p_pow[i] % m) % m;
    if(i){
        h[i] = (m + (h[i] + h[i-1]) % m) % m;
    }
}

假设我有 q查询，每个查询由3个整数组成: a， b和 L。

为了检查子串 s1 = str[a...a+l-1]和 s2 = str[b...b+l-1]的相等性，我可以比较这些子串的哈希值。为了使用刚刚创建的具有前缀子字符串的值获取子字符串的哈希值，我们需要使用以下公式:

H[I..J] * P[I]  =  H[0..J]  -  H[0..I-1]

同样，您可以在链接中阅读有关此内容的证明。

因此，要解决每个查询，我将执行以下操作:

cin >> a >> b >> len;
if(a == b){      // just avoid extra calculation, saves little time
    cout << "Yes" << endl;
}else{
    long long h1 = h[a+len-1] % m;
    if(a){
        h1 = (m + (h1 - h[a-1]) % m) % m;
    }
    long long h2 = h[b+len-1] % m;
    if(b){
        h2 = (m + (h2 - h[b-1]) % m) % m;
    }
    if (a < b && h1 * p_pow[b-a] % m == h2 % m || a > b && h1 % m == h2 * p_pow[a-b] % m){
        cout << "Yes" << endl;
    }else{
        cout << "No" << endl;
    }
}

关于c++ - 使用散列等长比较的子字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61259132/

27

4

0

文章推荐： java - 在spring mongodb中索引复合对象

文章推荐： java - Spring AOP参数化注解

文章推荐： c++ - 如何为启发式函数编写C++概念

mysql - SUM(COUNT(列)*AVG(列)) AS 列
我正在 csv 上使用 hadoop 来分析一些数据。我使用sql/mysql(不确定)来分析数据，现在陷入了僵局。我花了好几个小时在谷歌上搜索，却没有找到任何相关的东西。我需要一个查询，在该查询中
html - BOOTSTRAP 网格 | 4 列 > 2 列 > 1 列
我正在为 Bootstrap 网格布局的“简单”任务而苦苦挣扎。我希望在大视口(viewport)上有 4 列，然后在中型设备上有 2 列，最后在较小的设备上只有 1 列。当我测试我的代码片段时，似
mysql - 仅选择具有重复(A 列 || B 列)但不同(C 列)值的记录
对于这个令人困惑的标题，我深表歉意，我想不出这个问题的正确措辞。相反，我只会给你背景信息和目标: 这是在一个表中，一个人可能有也可能没有多行数据，这些行可能包含相同的 activity_id 值，也可
sequelize.js - 如何使用 Sequelize 结果查找 A 列 > B 列 + C 列
具有 3 列的数据库表 - A int , B int , C int 我的问题是: 如何使用 Sequelize 结果找到 A > B + C const countTasks = await Ta
MySQL 选择 DISTINCT 列 1、列 2From 表 order by 列 2 DESC
我在通过以下功能编写此查询时遇到问题: 首先按第 2 列 DESC 排序，然后从“不同的第 1 列”中选择只有 Column1 是 DISTINCT 此查询没有帮助，因为它首先从第 1 列中进行选择
css - 使用 bootstrap，台式机中有 4 列，平板电脑中有 2 列，移动设备中有 1 列
使用 Bootstrap 非常有趣和有帮助，目前我在创建以下需求时遇到问题。 “使用 bootstrap 在桌面上有 4 列，在平板电脑上有 2 列，在移动设备上有 1 列”谁能告诉我正确的结构最佳
r - 比较第 1 列(第 1 列)中的连续值并使用第 1 列后比较结果创建新列(第 2 列)
我是 R 新手，正在问一个非常基本的问题。当然，我在尝试从所提供的示例中获取指导的同时做了功课here和 here ，但无法在我的案例中实现这个想法，即可能是由于我的问题中的比较维度更大。我的实
python - 如果文件 1 中的 A 列 = 文件 2 中的 A 列，则替换为文件 2 中的 B 列
通常我会使用 R 并执行 merge.by，但这个文件似乎太大了，部门中的任何一台计算机都无法处理它! (任何从事遗传学工作的人的附加信息)本质上，插补似乎删除了 snp ID 的 rs 数字，我只剩
python - 当第 1 列 > 0 且第 2 列 <= 0 时，如何将第 1 列的值分配给第 2 列
我有一个 df , delta1 delta2 0 -1 2 0 -1 0 0 0 我想知道如何分配 delt
MySQL 加入 ON 列 a IN(列 b)
您好，我想知道是否可以执行以下操作。显然，我已经尝试在 phpMyAdmin 中运行它，但出现错误。也许还有另一种方式来编写此查询。 SELECT * FROM eat_eat_restaurants
python - 如何将 listA 列 1 值匹配并替换为与 ListB 列 1 匹配的 ListB 列 2 值，就像我们在 vlookup 中所做的那样
我有 2 个列表(标题和数据值)。我想要将数据值列 1 匹配并替换为头文件列 1，以获得与 dataValue 列 1 和标题值列 2 匹配的值头文件 TotalLoad,M0001001 Hois
linux - 如果 file1 的 B 列 = file2 的 B 列，则将 file1 的 A 列替换为 file2 的 A 列
我有两个不同长度的文件，file2 是一个很大的引用文件，我从中提取文件 1 的数据。我有一行 awk，我通常会对其进行调整以在我的文件中进行查找和替换，但它总是在同一列中进行查找和替换。所以对于
sql - 检查一个表(列)中的日期是否适合另一个表(列)中的另一个日期
假设我有两个表，如下所示。 create table contract( c_ID number(1) primary key, c_name varchar2(50) not
java - 无法将减号插入具有检查约束的 varchar 列(列 <> '')
我有一个带有 varchar 列的 H2 表，其检查约束定义如下: CONSTRAINT my_constraint CHECK (varchar_field <> '') 以下插入语句失败，但当我删
CSS 3 列，为什么第三列接管了其他 2 列？
这是最少量的代码，可以清楚地说明我的问题: One Two Three 前 2 个 div 应该是 2 个左列。第三个应该占据页面的其余部分。最后，我将添加选项来隐藏和
azure - 该查询未返回 TimeGenerate 列。请编辑查询并包含 TimeGenerate 列
在 Azure 中的 Log Analytics 中，我为 VM Heartbeat 选择一个预定义查询，我在编辑器中运行查询正常，但当我去创建警报时，我不断收到警报“查询未返回 TimeGenera
azure - 该查询未返回 TimeGenerate 列。请编辑查询并包含 TimeGenerate 列
在 Azure 中的 Log Analytics 中，我为 VM Heartbeat 选择一个预定义查询，我在编辑器中运行查询正常，但当我去创建警报时，我不断收到警报“查询未返回 TimeGenera
java - 为什么 [列,行] 而不是 [行,列]
今天我开始使用 JexcelApi 并遇到了这个:当您尝试从特定位置获取元素时，不是像您通常期望的那样使用sheet.getCell(row,col)，而是使用sheet.getCell(col,ro
C# 显示数据库的 2 列，共有 28 列
我有一个包含 28 列的数据库。第一列是代码，第二列是名称，其余是值。 public void displayData() { con.Open(); MySqlDataAdapter
html - 我的网页是 2 列，但在放大时重叠成 1 列？
我很沮丧:每当我缩小这个网页时，一切都变得一团糟。我如何将网页居中，以便我可以缩小并且元素不会被错误定位。 (它应该是 2 列，但所有内容都合并为 1)我试过但由于某种原因，这不起作用。 www.o

首页

博学

6Ren·AI

商城

c++ - 使用散列等长比较的子字符串