algorithm - 发现长模式-6ren

algorithm - 发现长模式

转载作者：塔克拉玛干更新时间：2023-11-03 02:13:33

给定一个排序的数字列表，我想找到最长的子序列，其中连续元素之间的差异呈几何增加。所以如果列表是

 1, 2, 3, 4, 7, 15, 27, 30, 31, 81

那么子序列是 1, 3, 7, 15, 31 .或者考虑 1, 2, 5, 6, 11, 15, 23, 41, 47其中有子序列 5, 11, 23, 47 a = 3 且 k = 2。

这可以在 O(n2) 时间内解决吗？其中 n 是列表的长度。

我对差异的级数为 ak、ak2、ak3 等的一般情况感兴趣，其中 a 和 k 都是整数，以及在 a = 1 的特殊情况下，因此差异的级数为 k、k2 , k3 等

最佳答案

更新

我对算法进行了改进，它平均需要 O(M + N^2) 和 O(M+N) 的内存需求。主要与下面描述的协议(protocol)相同，但为了计算 ech 差异 D 的可能因子 A、K，我预加载了一个表格。当 M=10^7 时，这个表的构建时间不到一秒。

我做了一个 C 实现，它需要不到 10 分钟来解决 N=10^5 不同的随机整数元素。

这是 C 中的源代码: 执行只需执行以下操作:gcc -O3 -o findgeo findgeo.c

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <memory.h>
#include <time.h>

struct Factor {
    int a;
    int k;
    struct Factor *next;
};

struct Factor *factors = 0;
int factorsL=0;

void ConstructFactors(int R) {
    int a,k,C;
    int R2;
    struct Factor *f;
    float seconds;
    clock_t end;
    clock_t start = clock();

    if (factors) free(factors);
    factors = malloc (sizeof(struct Factor) *((R>>1) + 1));
    R2 = R>>1 ;
    for (a=0;a<=R2;a++) {
        factors[a].a= a;
        factors[a].k=1;
        factors[a].next=NULL;
    }
    factorsL=R2+1;
    R2 = floor(sqrt(R));
    for (k=2; k<=R2; k++) {
        a=1;
        C=a*k*(k+1);
        while (C<R) {
            C >>= 1;
            f=malloc(sizeof(struct Factor));
            *f=factors[C];
            factors[C].a=a;
            factors[C].k=k;
            factors[C].next=f;
            a++;
            C=a*k*(k+1);
        }
    }

    end = clock();
    seconds = (float)(end - start) / CLOCKS_PER_SEC;
    printf("Construct Table: %f\n",seconds);
}

void DestructFactors() {
    int i;
    struct Factor *f;
    for (i=0;i<factorsL;i++) {
        while (factors[i].next) {
            f=factors[i].next->next;
            free(factors[i].next);
            factors[i].next=f;
        }
    }
    free(factors);
    factors=NULL;
    factorsL=0;
}

int ipow(int base, int exp)
{
    int result = 1;
    while (exp)
    {
        if (exp & 1)
            result *= base;
        exp >>= 1;
        base *= base;
    }

    return result;
}

void findGeo(int **bestSolution, int *bestSolutionL,int *Arr, int L) {
    int i,j,D;
    int mustExistToBeBetter;
    int R=Arr[L-1]-Arr[0];
    int *possibleSolution;
    int possibleSolutionL=0;
    int exp;
    int NextVal;
    int idx;
    int kMax,aMax;
    float seconds;
    clock_t end;
    clock_t start = clock();


    kMax = floor(sqrt(R));
    aMax = floor(R/2);
    ConstructFactors(R);
    *bestSolutionL=2;
    *bestSolution=malloc(0);

    possibleSolution = malloc(sizeof(int)*(R+1));

    struct Factor *f;
    int *H=malloc(sizeof(int)*(R+1));
    memset(H,0, sizeof(int)*(R+1));
    for (i=0;i<L;i++) {
        H[ Arr[i]-Arr[0] ]=1;
    }
    for (i=0; i<L-2;i++) {
        for (j=i+2; j<L; j++) {
            D=Arr[j]-Arr[i];
            if (D & 1) continue;
            f = factors + (D >>1);
            while (f) {
                idx=Arr[i] + f->a * f->k  - Arr[0];
                if ((f->k <= kMax)&& (f->a<aMax)&&(idx<=R)&&H[idx]) {
                    if (f->k ==1) {
                        mustExistToBeBetter = Arr[i] + f->a * (*bestSolutionL);
                    } else {
                        mustExistToBeBetter = Arr[i] + f->a * f->k * (ipow(f->k,*bestSolutionL) - 1)/(f->k-1);
                    }
                    if (mustExistToBeBetter< Arr[L-1]+1) {
                        idx=  floor(mustExistToBeBetter - Arr[0]);
                    } else {
                        idx = R+1;
                    }
                    if ((idx<=R)&&H[idx]) {
                        possibleSolution[0]=Arr[i];
                        possibleSolution[1]=Arr[i] + f->a*f->k;
                        possibleSolution[2]=Arr[j];
                        possibleSolutionL=3;
                        exp = f->k * f->k * f->k;
                        NextVal = Arr[j] + f->a * exp;
                        idx=NextVal - Arr[0];
                        while ( (idx<=R) && H[idx]) {
                            possibleSolution[possibleSolutionL]=NextVal;
                            possibleSolutionL++;
                            exp = exp * f->k;
                            NextVal = NextVal + f->a * exp;
                            idx=NextVal - Arr[0];
                        }

                        if (possibleSolutionL > *bestSolutionL) {
                            free(*bestSolution);
                            *bestSolution = possibleSolution;
                            possibleSolution = malloc(sizeof(int)*(R+1));
                            *bestSolutionL=possibleSolutionL;
                            kMax= floor( pow (R, 1/ (*bestSolutionL) ));
                            aMax= floor(R /  (*bestSolutionL));
                        }
                    }
                }
                f=f->next;
            }
        }
    }

    if (*bestSolutionL == 2) {
        free(*bestSolution);
        possibleSolutionL=0;
        for (i=0; (i<2)&&(i<L); i++ ) {
            possibleSolution[possibleSolutionL]=Arr[i];
            possibleSolutionL++;
        }
        *bestSolution = possibleSolution;
        *bestSolutionL=possibleSolutionL;
    } else {
        free(possibleSolution);
    }
    DestructFactors();
    free(H);

    end = clock();
    seconds = (float)(end - start) / CLOCKS_PER_SEC;
    printf("findGeo: %f\n",seconds);
}

int compareInt (const void * a, const void * b)
{
    return *(int *)a - *(int *)b;
}

int main(void) {
    int N=100000;
    int R=10000000;
    int *A = malloc(sizeof(int)*N);
    int *Sol;
    int SolL;
    int i;


    int *S=malloc(sizeof(int)*R);
    for (i=0;i<R;i++) S[i]=i+1;

    for (i=0;i<N;i++) {
        int r = rand() % (R-i);
        A[i]=S[r];
        S[r]=S[R-i-1];
    }

    free(S);
    qsort(A,N,sizeof(int),compareInt);

/*
    int step = floor(R/N);
    A[0]=1;
    for (i=1;i<N;i++) {
        A[i]=A[i-1]+step;
    }
*/

    findGeo(&Sol,&SolL,A,N);

    printf("[");
    for (i=0;i<SolL;i++) {
        if (i>0) printf(",");
        printf("%d",Sol[i]);
    }
    printf("]\n");
    printf("Size: %d\n",SolL);

    free(Sol);
    free(A);
    return EXIT_SUCCESS;
}

演示

我将尝试证明我提出的算法是 O(N`2+M)

平均分布的随机序列。我不是数学家，也不习惯做这种演示，所以请填写您能看到的任何错误。

有 4 个缩进循环，两个第一个是 N^2 因子。 M是用于计算可能因素表)。

第三个循环平均每对只执行一次。您可以在检查预先计算的因子表的大小时看到这一点。当 N->inf 时，它的大小是 M。所以每对的平均步长是 M/M=1。

所以证明恰好检查了第四个循环。 (遍历好的序列的那个对所有对的执行时间小于或等于 O(N^2)。

为了证明这一点，我将考虑两种情况:一种是 M>>N，另一种是 M ~= N。其中 M 是初始数组的最大差值:M= S(n)-S(1)。

对于第一种情况，(M>>N) 找到巧合的概率是 p=N/M。要开始一个序列，它必须与第二个元素和 b+1 元素重合，其中 b 是迄今为止最佳序列的长度。所以循环将进入 N^2*(N/M)^2

次。而这个级数的平均长度(假设是无限级数)是 p/(1-p) = N/(M-N)

.所以循环执行的总次数是 N^2 * (N/M)^2 * N/(M-N)

.当 M>>N 时，这接近于 0。这里的问题是当 M~=N 时。

现在让我们考虑这种情况，其中 M~=N。让我们认为 b 是迄今为止的最佳序列长度。对于 A=k=1 的情况，那么序列必须在 N-b 之前开始，所以序列的数量将是 N-b，并且循环的次数将是 (N-b)*b 的最大值。

对于 A>1 和 k=1，我们可以外推到 (N-A*b/d)*b

其中 d 是 M/N(数字之间的平均距离)。如果我们添加从 1 到 dN/b 的所有 A，那么我们会看到上限为:

$\sum_{A=1}^{dN/b}\left ( N-\frac{Ab}{d} \right )b=\frac{N^2d}{2}$

对于 k>=2 的情况，我们看到序列必须在 N-A*k^b/d

之前开始，所以循环会进入平均值 A*k^b/d)*b

并添加从 1 到 dN/k^b 的所有 As，它给出了一个限制

$\sum_{A=1}^{dN/k^b}\left ( N-\frac{Ak^b}{d} \right )b=\frac{bN^2d}{2k^b}$

这里，最坏的情况是 b 最小。因为我们正在考虑最小系列，所以让我们考虑 b= 2 的最坏情况，因此给定 k 的第 4 次循环的通过次数将小于

$\frac{dN^2}{k^2}$ .

如果我们将所有从 2 到无穷大的 k 相加将是:

$\sum_{k=2}^{\infty } \frac{dN^2}{k^2} = dN^2 \left ( \frac{\pi ^2}{6} -1\right )$

因此，添加 k=1 和 k>=2 的所有 channel ，我们有最大值:

$\frac{N^2d}{2} +N^2d \left ( \frac{\pi ^2}{6} -1\right ) = N^2d\left ( \frac{\pi ^2}{6} - \frac{1}{2}\right ) \simeq 1.45N^2d$

请注意，d=M/N=1/p。

所以我们有两个限制，一个在 d=1/p=M/N 变为 1 时变为无限，另一个在 d 变为无限时变为无限。所以我们的极限是两者中的最小值，最坏的情况是当两个方程交叉时。所以如果我们解方程:

$N^2d\left ( \frac{\pi ^2}{6} - \frac{1}{2}\right ) = N^2\left ( \frac{N}{M} \right )^2\frac{N}{M-N} =N^2\left ( \frac{1}{d} \right )^2\frac{1}{d-1}$

我们看到最大值是当 d=1.353

因此证明了第四个循环总共将被处理少于 1.55N^2 次。

当然，这是针对一般情况。对于最坏的情况，我无法找到一种方法来生成第四个循环高于 O(N^2) 的系列，并且我坚信它们不存在，但我不是数学家来证明这一点。

旧答案

这是一个平均为 O((n^2)*cube_root(M)) 的解决方案，其中 M 是数组的第一个和最后一个元素之间的差异。和 O(M+N) 的内存需求。

1.- 构造一个长度为 M 的数组 H，如果 i 存在于初始数组中，则 M[i - S[0]]=true，如果不存在则为 false。

2.- 对于数组 S[j], S[i] 中的每一对:

2.1 检查它是否可以成为可能解决方案的第一和第三要素。为此，计算满足方程 S(i) = S(j) + AK + AK^2 的所有可能的 A,K 对。查询 this SO question看看如何解决这个问题。并检查是否存在第二个元素:S[i]+ A*K

2.2 进一步检查我们所拥有的最佳解决方案是否存在元素一位置。例如，如果到目前为止我们拥有的最佳解决方案是 4 个元素，那么检查元素 A[j] + AK + AK^2 + AK^3 + AK^4 是否存在

2.3 如果 2.1 和 2.2 为真，则迭代这个系列有多长时间并设置为最佳解决方案，直到现在比上一个更长。

这是javascript中的代码:

function getAKs(A) {
    if (A / 2 != Math.floor(A / 2)) return [];
    var solution = [];
    var i;
    var SR3 = Math.pow(A, 1 / 3);
    for (i = 1; i <= SR3; i++) {
        var B, C;
        C = i;
        B = A / (C * (C + 1));
        if (B == Math.floor(B)) {
            solution.push([B, C]);
        }

        B = i;
        C = (-1 + Math.sqrt(1 + 4 * A / B)) / 2;
        if (C == Math.floor(C)) {
            solution.push([B, C]);
        }
    }

    return solution;
}

function getBestGeometricSequence(S) {
    var i, j, k;

    var bestSolution = [];

    var H = Array(S[S.length-1]-S[0]);
    for (i = 0; i < S.length; i++) H[S[i] - S[0]] = true;

    for (i = 0; i < S.length; i++) {
        for (j = 0; j < i; j++) {
            var PossibleAKs = getAKs(S[i] - S[j]);
            for (k = 0; k < PossibleAKs.length; k++) {
                var A = PossibleAKs[k][0];
                var K = PossibleAKs[k][17];

                var mustExistToBeBetter;
                if (K==1) {
                    mustExistToBeBetter = S[j] + A * bestSolution.length;
                } else {
                    mustExistToBeBetter = S[j] + A * K * (Math.pow(K,bestSolution.length) - 1)/(K-1);
                }

                if ((H[S[j] + A * K - S[0]]) && (H[mustExistToBeBetter - S[0]])) {
                    var possibleSolution=[S[j],S[j] + A * K,S[i]];
                    exp = K * K * K;
                    var NextVal = S[i] + A * exp;
                    while (H[NextVal - S[0]] === true) {
                        possibleSolution.push(NextVal);
                        exp = exp * K;
                        NextVal = NextVal + A * exp;
                    }

                    if (possibleSolution.length > bestSolution.length) {
                        bestSolution = possibleSolution;
                    }
                }
            }
        }
    }
    return bestSolution;
}

//var A= [ 1, 2, 3,5,7, 15, 27, 30,31, 81];
var A=[];
for (i=1;i<=3000;i++) {
    A.push(i);
}
var sol=getBestGeometricSequence(A);

$("#result").html(JSON.stringify(sol));

您可以在此处查看代码: http://jsfiddle.net/6yHyR/1/

我保留另一个解决方案，因为我相信与 N 相比，当 M 非常大时，它仍然更好。

关于algorithm - 发现长模式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18241277/

文章推荐： c++ - 游戏引擎的线程模型

文章推荐： c++ - 如何在 QtScript 中使用 C++ std 复数

文章推荐： c++ - 不明确的类命名空间问题

文章推荐： c++ - 如何更改控制台字体？

python - 长/宽数据到宽/长
我有一个如下所示的数据框: import pandas as pd d = {'decil': ['1. decil','1. decil','2. decil','2. decil','3. dec
iPhone 长 plist
我有一些数据想要添加到我的应用中...大约 650 个类别(包括名称 + ID 号)，每个类别平均有 85 个项目(每个都有一个名称/ID 号)。 iPhone会支持这么大的plist吗？我想首先在
python - 从头开始实现决策树的分支时遇到困难(长)
我目前正在使用 Python 从头开始实现决策树算法。我在实现树的分支时遇到了麻烦。在当前的实现中，我没有使用深度参数。发生的情况是，要么分支结束得太快(如果我使用标志来防止无限递归)，要么如果
php - 长/纬度查询整个数据库
我在 Stack 上发现了这个问题 - Measuring the distance between two coordinates in PHP 这个答案在很多方面似乎对我来说都是完美的，但我遇到了
PostgreSQL 长 VACUUM
我目前正在清理一个具有 2 个索引和 2.5 亿个事件行以及大约同样多(或更多)的死行的表。我从我的客户端计算机(笔记本电脑)向我的服务器发出命令 VACCUM FULL ANALYZE。在过去的 3
python - (长)从列表中的字符串中删除单引号
这一切都有点模糊，因为该计划是相当深入的，但坚持我，因为我会尽量解释它。我编写了一个程序，它接受一个.csv文件，并将其转换为MySQL数据库的INSERT INTO语句。例如： ID Numbe
C++地址字符串->长
我有一个地址示例:0x003533，它是一个字符串，但要使用它，我需要它是一个 LONG，但我不知道该怎么做:有人有解决方案吗？ s 字符串:“0x003533”到长 0x003533 ?? 最佳答案
C++，为二叉树实现自定义迭代器(长)
请保持友善 - 这是我的第一个问题。 =P 基本上作为一个暑期项目，我一直在研究 wikipedia page 上的数据结构列表。并尝试实现它们。上学期我参加了 C++ 类(class)，发现它非常有
mysql - 长 IN 子句是一种代码味道吗？
简单的问题。想知道长 IN 子句是否是一种代码味道？我真的不知道如何证明它。除了我认为的那样，我不知道为什么它会闻起来。 select name, code, capital, pop
C# 随机(长)
我正在尝试基于 C# 中的种子生成一个数字。唯一的问题是种子太大而不能成为 int32。有什么方法可以像种子一样使用 long 吗？是的，种子必须很长。最佳答案这是我移植的 Java.Util.
couchdb - 长 ID 的性能
我一直想知道这个问题有一段时间了。在 CouchDB 中，我们有一些相当的日志 ID……例如: “000ab56cb24aef9b817ac98d55695c6a” 现在，如果我们正在搜索此项目并浏览
R:创建(长)假人列表时的警告
列的虚拟列 c和一个给定的值 x等于 1如果 c==x和 0 其他。通常，通过为列创建虚拟对象 c , 一排除一个值 x选择，因为最后一个虚拟列不添加任何信息 w.r.t.已经存在的虚拟列。这是我如
tarantool 长 WAL 写
使用 tarantool，为什么我要记录这些奇怪的消息: 2016-03-24 16:19:58.987 [5803] main/493623/http/XXX.XXX.XXX.XXX:57295 t
Github:在新存储库中使用多个分支/克隆(长)
我显然是 GitHub 的新手，想确保在开始之前我做的事情是正确的。我想创建一个新的存储库，它使用来自 2 个现有项目的复刻/克隆。现有项目不是我的。假设我想使用的 repo 被称为来自开发人员“
iphone - 长 iPhone 应用程序名称将显示在多行中
我的应用程序名称长度为 17 个字符。当安装在设备上时，它看起来像应用程序...名称。有没有办法在多行上显示应用程序名称？请帮忙。最佳答案不，你不能。我认为 iPad 支持 15 个字符来完整显示
java - 多线程程序花费的时间比单线程(Java)长
我必须编写一个程序来读取文件中的所有单词，并确定每个单词使用了多少次。我的任务是使用多线程来加快运行时间，但是单线程程序的运行速度比多线程程序快。我曾尝试研究此问题的解决方案，但很多解释只会让我更加困
integer - 缩放(长)整数时防止溢出并保持精度
假设我在给定的范围内有一个位置pos，这样: 0 = newRange*newRange : "Case not supported yet"; // Never happens in my code
Java:将unix时间(长)舍入到该月的第一天
我试图在 Java 中将 unix 时间四舍五入到该月的第一天，但没有成功。示例: 1314057600 (Tue, 23 Aug 2011 00:00:00 GMT) 至 1312156800
cvs - 长 CVS 版本号有什么技术问题吗？
我们的项目有在 CVS 中从现有分支创建新分支的历史。几年后，这导致了每次发布时更改的文件上的这种情况: 新版本:1.145.4.11.2.20.2.6.2.20.2.1.2.11.2.3.2.4.4
r - 计算数据框中(长)周末的天数
我有以下数据框: DAYS7 <- c('Monday','Tuesday','Wednesday','Thursday','Friday', 'Saturday', 'Sunday') DAYS

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

algorithm - 发现长模式