python - 提高此搜索的效率，以检查此列表中是否有两个数字相加？-6ren

python - 提高此搜索的效率，以检查此列表中是否有两个数字相加？

转载作者：行者123 更新时间：2023-12-02 09:54:05

我正在尝试找到最有效的方法，使用Python检查此列表中的任何两个数字是否等于该列表中的另一个数字。我已决定添加一些上下文，以使其更清晰并可能更易于优化。这是我的代码：

import numpy as np
from collections import Counter
from collections import deque


def gen_prim_pyth_trips(limit=None):
    u = np.mat(' 1  2  2; -2 -1 -2; 2 2 3')
    a = np.mat(' 1  2  2;  2  1  2; 2 2 3')
    d = np.mat('-1 -2 -2;  2  1  2; 2 2 3')
    uad = np.array([u, a, d])
    m = np.array([3, 4, 5])
    while m.size:
        m = m.reshape(-1, 3)
        if limit:
            m = m[m[:, 2] <= limit]
        yield from m
        m = np.dot(m, uad)

def find_target(values, target):

    dq = deque(sorted([(val, idx) for idx, val in enumerate(values)]))

    while True:
        if len(dq) < 2:
            return -1

        s =  dq[0][0] + dq[-1][0]

        if s > target:
            dq.pop()
        elif s < target:
            dq.popleft()
        else:
            break
    return dq[0], dq[-1]


ratioList = []

MAX_NUM = 500000

for i in list(gen_prim_pyth_trips(MAX_NUM)):
    ratioList.append((i[0]*i[1])/i[2]**2)
    if find_target(ratioList, (i[0]*i[1])/i[2]**2) != -1:
        print(find_target(ratioList, (i[0]*i[1])/i[2]**2))

gen_prim_pyth_trips()函数来自 here。 “慢”部分出现在三元组生成之后。 find_target来自 here。

当前它运行良好，但是我正在尝试找到一种方法来加快此速度，或者找到一种更快的全新方法。

人们在评论中说这是3SUM问题的一种变体，根据Wikipedia页面，它可以在O（n ^ 2）中完成，其中n是数字数（即我的比率数）。我还没有找到一种在一般和Python中实现此方法的方法。

任何加速都将有所帮助；它并不一定只是一个更好的算法（库等）。我认为目前这比O（n ^ 3）好吗？

另外，对于MAX_NUM = 100,000，还算不错（大约4分钟），但是对于500,000来说，这很不好（尚未停止运行）。

最终，我想做MAX_NUM = 1,000,000或更多。

编辑

我希望看到一个更快的算法，例如O（n ^ 2），或者速度大大提高。

最佳答案

比您的速度快数百倍，而且没有浮点问题。
比kaya3的O（n²）解决方案快数千倍。
我运行它直到MAX_NUM = 4,000,000，但没有找到结果。花了大约12分钟。

利用特殊号码。

这不仅仅是普通的3SUM。这些数字很特殊，我们可以利用它。它们的格式为ab /c²，其中（a，b，c）是原始的毕达哥拉斯三元组。

假设我们有一个数字x = ab /c²，我们想找到另外两个加起来x的数字：

消除后，分母c²和（fi）²变为c²/ k和（fi）²/ m（对于某些整数k和m），而我们的c²/ k =（fi）²/ m。令p为c²/ k的最大素数。然后，p也除以（fi）²/ m，从而除以f或i。因此，数字de /f²和gh /i²中至少有一个分母可被p整除。我们将其称为y，将另一个称为z。

那么对于某个x，我们如何找到拟合y和z？我们不必尝试y和z的所有数字。对于y，我们仅尝试使用分母可被p整除的那些。对于z？我们将其计算为x-y，并检查是否有该数字（在哈希集中）。

有什么帮助？如果您天真地尝试所有（小于x）数字，我的解决方案计算了多少个y候选对象，用我的方法有多少个y候选对象，以及多少呢？

  MAX_NUM         naive           mine      % less
--------------------------------------------------
   10,000         1,268,028        17,686   98.61
  100,000       126,699,321       725,147   99.43
  500,000     3,166,607,571     9,926,863   99.69
1,000,000    12,662,531,091    30,842,188   99.76
2,000,000    50,663,652,040    96,536,552   99.81
4,000,000   202,640,284,036   303,159,038   99.85

伪码

以上代码形式的描述：

h = hashset(numbers)
for x in the numbers:
    p = the largest prime factor in the denominator of x
    for y in the numbers whose denominator is divisible by p:
      z = x - y
      if z is in h:
        output (x, y, z)

基准测试

各种MAX_NUM及其结果n的时间，以秒为单位：

         MAX_NUM:    10,000   100,000   500,000  1,000,000  2,000,000  4,000,000
            => n:     1,593    15,919    79,582    159,139    318,320    636,617
--------------------------------------------------------------------------------
Original solution       1.6     222.3         -          -          -          -
My solution             0.05      1.6      22.1       71.0      228.0      735.5
kaya3's solution       29.1    2927.1         -          -          -          -

复杂

这是O（n²），也许更好。我对数字的本质了解得不够充分，无法推理出这些数字，但是上述基准确实使它看起来比O（n²）好得多。对于二次运行时，从n = 318,320到n = 636,617，您会期望运行时增加因子（636,617 / 318,320）²≈4.00，但实际增加仅为735.5 / 228.0≈3.23。

我并没有针对所有大小运行您的设备，但是由于您至少增长了两倍，因此在MAX_NUM = 4,000,000的情况下，您的解决方案至少需要222.3 *（636,617 / 15,919）²= 355,520秒，比我的速度慢483倍。同样，kaya3的速度将比我的慢6365倍。

用这个奇怪的把戏浪费时间

Python的Fraction类很简洁，但是它也很慢。特别是其哈希。转换为元组并对该元组进行哈希处理大约快34倍：

>set SETUP="import fractions; f = fractions.Fraction(31459, 271828)"

>python -m timeit -s %SETUP% -n 100000 "hash(f)"
100000 loops, best of 5: 19.8 usec per loop

>python -m timeit -s %SETUP% -n 100000 "hash((f.numerator, f.denominator))"
100000 loops, best of 5: 581 nsec per loop

Its code说：

此方法是昂贵的。为了确保分数的哈希与数值相等的整数，浮点或小数实例的哈希一致，我们遵循文档。

其他操作也有些慢，所以除了输出以外，我不使用 Fraction。我改用（分子，分母）元组。

解决方案代码

from math import gcd

def solve_stefan(triples):

    # Prime factorization stuff
    largest_prime_factor = [0] * (MAX_NUM + 1)
    for i in range(2, MAX_NUM+1):
        if not largest_prime_factor[i]:
            for m in range(i, MAX_NUM+1, i):
                largest_prime_factor[m] = i
    def prime_factors(k):
        while k > 1:
            p = largest_prime_factor[k]
            yield p
            while k % p == 0:
                k //= p

    # Lightweight fractions, represented as tuple (numerator, denominator)
    def frac(num, den):
        g = gcd(num, den)
        return num // g, den // g
    def sub(frac1, frac2):
        a, b = frac1
        c, d = frac2
        return frac(a*d - b*c, b*d)
    class Key:
        def __init__(self, triple):
            a, b, c = map(int, triple)
            self.frac = frac(a*b, c*c)
        def __lt__(self, other):
            a, b = self.frac
            c, d = other.frac
            return a*d < b*c

    # The search. See notes under the code.
    seen = set()
    supers = [[] for _ in range(MAX_NUM + 1)]
    for triple in sorted(triples, key=Key):
        a, b, c = map(int, triple)
        x = frac(a*b, c*c)
        denominator_primes = [p for p in prime_factors(c) if x[1] % p == 0]
        for y in supers[denominator_primes[0]]:
            z = sub(x, y)
            if z in seen:
                yield tuple(sorted(Fraction(*frac) for frac in (x, y, z)))
        seen.add(x)
        for p in denominator_primes:
            supers[p].append(x)

笔记：

我在增加分数值（即增加x值）的过程中经历了三元组。
我的 denominator_primes是x分母的素数列表。请记住，这是c²/ k，因此它的素因子也必须是c的素因子。但是k可能抵消了一些，所以我仔细研究了c的质因子，并检查它们是否除以分母。为什么这么“复杂”而不是仅仅查找c²/ k的素因子？因为那可能会过大。
denominator_primes正在下降，因此p只是 denominator_primes[0]。顺便说一句，为什么要使用最大的？因为更大意味着稀有意味着更少的y候选意味着更快。
supers[p]列出分母可被p整除的数字。它用于获取y候选人。
当我用完x时，我使用 denominator_primes将x放入 supers列表中，因此将来x值可以是y。
我在循环过程中（而不是之前）构建了 seen和 supers，以使其较小。毕竟，对于具有正数的x = y + z，y和z必须小于x，因此寻找较大的x将是浪费的。

验证

如果没有结果该如何验证？据我所知，我们的解决方案都找不到。因此，除了虚无之外，没有什么可比较的了，这并不完全令人信服。好吧，我的解决方案不依赖勾股关系，所以我创建了一组仅原始的三元组，并为此检查了我的解决方案的结果。它计算了与参考实现相同的25,336个结果：

def solve_reference(triples):
    fractions = {Fraction(int(a) * int(b), int(c)**2)
                 for a, b, c in triples}
    for x, y in combinations_with_replacement(sorted(fractions), 2):
        z = x + y
        if z in fractions:
            yield x, y, z

MIN_NUM = 2
MAX_NUM = 25
def triples():
    return list((a, b, c)
                for a, b, c in combinations(range(MIN_NUM, MAX_NUM+1), 3)
                if gcd(a, gcd(b, c)) == 1)
print(len(triples()), 'input triples')
expect = set(solve_reference(triples()))
print(len(expect), 'results')
output = set(solve_stefan(triples()))
print('output is', ('wrong', 'correct')[output == expect])

输出：

1741 input triples
25336 results
output is correct

关于python - 提高此搜索的效率，以检查此列表中是否有两个数字相加？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59402909/

文章推荐： eclipse - 维护一组通用的 Eclipse 首选项

文章推荐： opengl - glDrawPixels 与纹理在 OpenGL 中绘制 2D 缓冲区

文章推荐： django 使用 memcached 缓存后端 — 我这样做对吗？

javascript - 我需要将文本放在一个中，它位于一个 Div 中，该 Div 位于另一个 Div 中，该 Div 位于另一个 Div 中
我需要将文本放在中在一个 Div 中，在另一个 Div 中，在另一个 Div 中。所以这是它的样子: #document Change PIN
html - 两个背景图像。一个在 HTML 中，一个在 BODY 中。在 Firefox 中，主体图像未呈现
奇怪的事情发生了。我有一个基本的 html 代码。 html，头部， body 。(因为我收到了一些反对票，这里是完整的代码) 这是我的CSS: html { backgroun
ios - 将图像从 asset.xcassets 加载到 imageArray 中，并将其动态加载到 UIImageView 中，该 UIImageView 存在于 UICollectionView 中 - swift
我正在尝试将 Assets 中的一组图像加载到 UICollectionview 中存在的 ImageView 中，但每当我运行应用程序时它都会显示错误。而且也没有显示图像。我在ViewDidLoa
linux - 在 BASH 中，我需要根据 perl 脚本的输出更改一些环境变量。在 tcsh 中，我可以使用别名 eval 组合。不能在 bash 中
我需要根据带参数的 perl 脚本的输出更改一些环境变量。在 tcsh 中，我可以使用别名命令来评估 perl 脚本的输出。 tcsh: alias setsdk 'eval `/localhome/
asp.net - Windows 身份验证适用于 IIS，但不适用于 Kestrel/Microsoft.AspNetCore.Authentication.Negotiate(不在 Chrome 中，有时在 Edge 中，始终在 IE 中)？
我使用 Windows 身份验证创建了一个新的 Blazor(服务器端)应用程序，并使用 IIS Express 运行它。它将显示一条消息“Hello Domain\User!”来自右上方的以下 Ra
java - java 中 Kotlin 中的等价物是什么？
这是我的方法 void login(Event event);我想知道 Kotlin 中应该如何最佳答案在 Kotlin 中通配符运算符是 * 。它指示编译器它是未知的，但一旦知道，就不会有其他类
express - 在 Jade 中，为什么有时我可以按原样使用变量而有时必须将它们包含在#{......} 中？
看下面的代码 for story in book if story.title.length < 140 - var story
c - C 中 strstr() 中 for 循环的错误使用
我正在尝试用 C 语言学习字符串处理。我写了一个程序，它存储了一些音乐轨道，并帮助用户检查他/她想到的歌曲是否存在于存储的轨道中。这是通过要求用户输入一串字符来完成的。然后程序使用 strstr()
c - * 在 sscanf 中，* 在 [] 中
我正在学习 sscanf 并遇到如下格式字符串: sscanf("%[^:]:%[^*=]%*[*=]%n",a,b,&c); 我理解 %[^:] 部分意味着扫描直到遇到 ':' 并将其分配给 a。:
python - 在 Python (2.7.3) 中，如果 str(x) 中的任何字符在 str(y) 中(或 str(y) 在 str(x) 中)，我如何编写一个函数来回答？
def char_check(x,y): if (str(x) in y or x.find(y) > -1) or (str(y) in x or y.find(x) > -1):
ansible - 在 Ansible 中，如何将一行移动到一个 block 中？
我有一种情况，我想将文本文件中的现有行包含到一个新 block 中。 line 1 line 2 line in block line 3 line 4 应该变成 line 1 line 2 line
Django 调试工具栏显示在根 URL 中，但不显示在应用程序 URL 中
我有一个新项目，我正在尝试设置 Django 调试工具栏。首先，我尝试了快速设置，它只涉及将 'debug_toolbar' 添加到我的已安装应用程序列表中。有了这个，当我转到我的根 URL 时，调试
r - 在 R 中，Matlab 中 @ 函数句柄的等价物是什么？
在 Matlab 中，如果我有一个函数 f，例如签名是 f(a,b,c)，我可以创建一个只有一个变量 b 的函数，它将使用固定的 a=a1 和 c=c1 调用 f: g = @(b) f(a1, b,
swiftui - SwiftUI 中 ScrollView 中 VStack 元素中的神秘间距或填充
我不明白为什么 ForEach 中的元素之间有多余的垂直间距在 VStack 里面在 ScrollView 里面使用 GeometryReader 时渲染自定义水平分隔线。 Scrol
cookies - 什么应该存储在 session 中，什么应该存储在 cookie 中？
我想知道，是否有关于何时使用 session 和 cookie 的指南或最佳实践？什么应该和什么不应该存储在其中？谢谢! 最佳答案这些文档很好地了解了 session cookie 的安全问题以及
python - Python 中 matplotlib 中 3d 直方图的奇怪行为
我在 scipy/numpy 中有一个 Nx3 矩阵，我想用它制作一个 3 维条形图，其中 X 轴和 Y 轴由矩阵的第一列和第二列的值、高度确定每个条形的是矩阵中的第三列，条形的数量由 N 确定。
c - c 中 sem_init(...) 中 value 参数的不同用法
假设我用两种不同的方式初始化信号量 sem_init(&randomsem,0,1) sem_init(&randomsem,0,0) 现在， sem_wait(&randomsem) 在这两种情况下
c - 实际值存储在 pstr 中，但是该值如何存储在数组 "WORD"中
我怀疑该值如何存储在“WORD”中，因为 PStr 包含实际输出。？既然Pstr中存储的是小写到大写的字母，那么在printf中如何将其给出为“WORD”。有人可以吗？解释一下？ #include
javascript - 数组索引选择像在 numpy 中，但在 javascript 中
我有一个 3x3 数组: var my_array = [[0,1,2], [3,4,5], [6,7,8]]; 并想获得它的第一个 2
javascript - 在 Javascript 中，如何检测浏览器窗口何时在 View 中？
我意识到您可以使用如下方式轻松检查焦点: var hasFocus = true; $(window).blur(function(){ hasFocus = false; }); $(win

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 提高此搜索的效率，以检查此列表中是否有两个数字相加？