c - 用于查找 2 个字符串之间任意长度的所有共享子字符串，然后计算字符串 2 中出现次数的算法？-6ren

c - 用于查找 2 个字符串之间任意长度的所有共享子字符串，然后计算字符串 2 中出现次数的算法？

转载作者：太空狗更新时间：2023-10-29 16:34:08

26

4

我遇到了一个不寻常的挑战，到目前为止我无法确定最有效的算法来解决这个问题。

以下面2个字符串为例，找出2个任意长度的字符串之间所有共有的共享子串，并统计所有这些共享子串在字符串2中出现的次数。你的算法也需要能够计算包含大小高达 100MB 或更大字符串的文件之间的共享子字符串。

例子:

字符串 1:ABCDE512ABC361EG51D

字符串 2:ADE5AHDW4131EG1DG5C

给定这 2 个字符串，该算法将找到以下共享子字符串:A,C,D,E,5,1,3,G,DE,E5,EG,G5,1D,DE5,1EG

然后从这些共同共享的子串中，我们会发现每个子串在字符串 2 中出现了多少次。

A: 在字符串 2 中出现 2 次

C: 在字符串 2 中出现 1 次

D: 在字符串 2 中出现 3 次

等..

我为解决这个问题而采取的第一种方法是使用 2 个嵌套的 for 循环通过计算公共(public)共享子串来强制我的方式 - 显然效率最低，但这是一种快速而肮脏的方式来了解什么预期的输出应该具有较小的测试输入和最慢的运行时间，大约需要 2 分钟来计算 2 个包含大小为 50kb 的 ascii 字符串的文件之间的所有公共(public)共享子字符串。将大小增加到 1mb 会使计算戛然而止，因为必须进行大量的嵌套迭代来计算它。

下一个方法是使用树——看看我可以折衷多少内存来优化计算时间。这种方法要快得多。同样的两个 50kb 的文件，用蛮力方法花费 2 分钟，几乎是即时的。运行 1mb 文件仍然非常快(秒)，但随着我继续测试越来越大的文件大小，由于树的大小，我很快开始遇到内存问题。

注意:字符串文件将只包含 ASCII 字符!

编辑:

我正在进一步升级，请参阅:

https://gist.github.com/braydo25/f7a9ce7ce7ad7c5fb11ec511887789bc

最佳答案

这里有一些代码说明了我在上面的评论中提出的想法。虽然它是可运行的 C++ 代码，但从某种意义上说，它更像是伪代码，因为所使用的数据结构肯定不是最优的，但它们允许对算法有清晰的认识。

struct Occurrence
{
    //The vectors contain indices to the first character of the occurrence in ...
    std::vector<size_t> s1;  // ... string 1 and ...
    std::vector<size_t> s2;  // ... string 2.
};

int main()
{
    //If you cannot load the entire strings in memory, a memory-mapped file might be
    //worth considering
    std::string s1 = "ABCDE512ABC361EG51D";
    std::string s2 = "ADE5AHDW4131EG1DG5C";

    //These vectors store the occurrences of substrings for the current and next length
    std::vector<Occurrence> occurrences, nextOccurrences;
    int length = 1;

    std::map<char, Occurrence> occurrenceMap;
    //Initialize occurrences
    for (int i = 0; i < s1.length(); ++i)
        occurrenceMap[s1[i]].s1.push_back(i);
    for (int i = 0; i < s2.length(); ++i)
        occurrenceMap[s2[i]].s2.push_back(i);

    for (auto& pair : occurrenceMap)
    {
        if (pair.second.s1.size() > 0 && pair.second.s2.size() > 0)
            occurrences.push_back(std::move(pair.second));
    }

    do
    {
        nextOccurrences.clear();

        std::cout << "Length " << length << std::endl;
        for(auto& o : occurrences)
        {
            std::cout << std::string(s1.c_str() + o.s1[0], length) << " occurred "
                      << o.s1.size() << " / " << o.s2.size() << " times." << std::endl;

            //Expand the occurrence
            occurrenceMap.clear();
            for (auto p : o.s1)
            {
                if (p + length < s1.length())
                    occurrenceMap[s1[p + length]].s1.push_back(p);
            }                   
            for (auto p : o.s2)
            {
                if (p + length < s2.length())
                occurrenceMap[s2[p + length]].s2.push_back(p);
            }
            for (auto& pair : occurrenceMap)
            {
                if (pair.second.s1.size() > 0 && pair.second.s2.size() > 0)
                    nextOccurrences.push_back(std::move(pair.second));
            }
        }

        ++length;
        std::swap(occurrences, nextOccurrences);

    } while (!occurrences.empty());


    return 0;
}

输出:

Length 1
1 occurred 3 / 3 times.
3 occurred 1 / 1 times.
5 occurred 2 / 2 times.
A occurred 2 / 2 times.
C occurred 2 / 1 times.
D occurred 2 / 3 times.
E occurred 2 / 2 times.
G occurred 1 / 2 times.
Length 2
1D occurred 1 / 1 times.
1E occurred 1 / 1 times.
DE occurred 1 / 1 times.
E5 occurred 1 / 1 times.
EG occurred 1 / 1 times.
G5 occurred 1 / 1 times.
Length 3
1EG occurred 1 / 1 times.
DE5 occurred 1 / 1 times.

初始化期间将使用最多的内存，因为两个输入字符串的每个字符都会有一个条目。如果知道字符串的大致长度，则可以选择比 size_t 更合适的索引数据类型。所需的内存量按输入大小的顺序排列。所以两个100MB的文件对于普通电脑应该是没有问题的。在初始化之后(更具体地说，在循环的第一次迭代之后)，这些数据中的大部分将被删除，因为不再需要它们。

关于c - 用于查找 2 个字符串之间任意长度的所有共享子字符串，然后计算字符串 2 中出现次数的算法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40432674/

26

4

0

文章推荐： c - C 中的函数指针相等

文章推荐： c - conditional_wait() 如何在内核和硬件/汇编级别实现？

文章推荐： c - 使用 Emscripten 编译的 WebAssembly 中的 HmacSHA256

文章推荐： c - ANSI C (ISO C90) : Can scanf read/accept an unsigned char?

服务器端的 Firebird 计算(计算)字段
SQL 和一般开发的新手，我有一个表(COUNTRIES)，其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
jquery - 计算(百分比)计算(像素)
我想使用 calc(100%-100px)，但在我的 demo 中不起作用由于高度只接受像素，因此如何将此百分比值转换为像素。最佳答案以下将为您提供高度: $(window).height();
MySql 计算
我正在尝试在 MySQL 中添加列并动态填充其他列。例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列，这些总数应填充在第 4 列中最佳答案除非我误解了你的问题，否则你不只是在寻找:
mysql - 计算
我想返回简单计算的结果，但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
嵌套for循环中的c++计算
我一直在尝试做这个程序，但我被卡住了，我仍然是一个初学者，任何帮助将不胜感激。我需要程序来做打印一个 10 X 10 的表格，其中表格中的每个条目都是行号和列号的总和包含一个累加器，用于计算所有表
c - 计算
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
计算 AND 的算法
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间，不能使用 XOR、OR、AND 运算。具体来说，
Excel - 在数字格式中使用公式/计算
如何在 Excel 中将公式放入自定义数字格式？例如(出于说明目的随机示例)，假设我有以下数据: 输入输出在不编辑单元格中的实际数据的情况下，我想显示单元格中的值除以 2，并保留两位小数: 有没
Flutter:隔离内存泄漏(计算)
每次我在 Flutter 应用程序中调用计算()时，我都会看到内存泄漏，据我所知，这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。我已将我的代码简化为仅调
R中的RMSE(均方根偏差)计算
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
计算 C 文件中未知数量的字符
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
sql - 计算/派生连续日期跨度中的第一个开始日期
我正在使用 Postgres，并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
jquery - 计算，用逗号替换点
我有一个订单表格，我在其中使用 jQuery 计算插件来汇总总数。此求和工作正常，但生成的“总和”存在问题。总之，我希望用逗号替换任何点。代码的基础是； function ($this) {
Delphi错误的 double 计算
我在使用 double 变量计算简单算术方程时遇到问题。我有一个具有 double 属性 Value 的组件，我将此属性设置为 100。然后我做一个简单的减法来检查这个值是否真的是 100: va
openssl CRC32 计算
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意，因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持？我已经在为 SHA1 使用 openssl，
php - 计算-1个月时的PHP天错误
当我在PHP日期计算中遇到问题时，我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
持有变量的 JavaScript 计算
我正在使用 javascript 进行练习，我编写了这个脚本来计算 2 个变量的总和，然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
audio - sample 计算
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。我正在尝试制作一些python脚本来播放文件，因为我需要能够设置在flac文件中开始的位置。如何从CueSheet格式MM:SS:FF转
javascript - 计算 for 循环中输入值的总和
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。我有一个
使用输入和跨度字段的 Javascript 计算
4000 我需要上面字段 name="quantity" 和 id="price" 中的值，并使用 javascript 函数进行计算，并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总

首页

博学

6Ren·AI

商城

c - 用于查找 2 个字符串之间任意长度的所有共享子字符串，然后计算字符串 2 中出现次数的算法？