- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在尝试使用 NTT 实现 Schonhage-Strassen 乘法算法,但遇到了一个问题,即最终生成的向量实际上并不等于它应有的值。
对于两个输入向量 a
和 b
,每个向量由 N
个“数字”组成,共 K
位(每个设置为 0 的最终 N/2
条目),每个条目,给定一个模数 M = 2^(2*K)+1
,单位根 w = N^(4*K-1) | w^N = 1 mod M
,此值 wi | 的模逆wi*w = 1 mod M
和 u | u*N = 1 mod M
,以下 python 代码用于(尝试)使用 Schonhage-Strassen 算法将这些向量相乘:
#a and b are lists of length N, representing large integers
A = [ sum([ (a[i]*pow(w,i*j,M))%M for i in range(N)]) for j in range(N)] #NTT of a
B = [ sum([ (b[i]*pow(w,i*j,M))%M for i in range(N)]) for j in range(N)] #NTT of b
C = [ (A[i]*B[i])%M for i in range(N)] #A * B multiplied pointwise
c = [ sum([ (C[i]*pow(wi,i*j,M))%M for i in range(N)]) for j in range(N)] #intermediate step in INTT of C
ci = [ (i*u)%M for i in c] #INTT of C, should be product of a and b
理论上,取 a
和 b
的 NTT,逐点相乘,然后取结果的 INTT 应该给出乘积,如果我没记错的话,和我已经为 NTT 和 INTT 测试了这些方法,以确认它们是彼此的反函数。但是,最终生成的向量 ci
不是等于 a
和 b
的乘积,而是每个元素取模后的乘积M
,给出了错误的产品结果。
例如,使用 N=K=8
和 a, b
的随机向量运行测试,给出以下结果:
M = 2^(2*8)+1 = 65537
w = 16, wi = 61441
u = 57345
a = [212, 251, 84, 186, 0, 0, 0, 0] (3126131668 as an integer)
b = [180, 27, 234, 225, 0, 0, 0, 0] (3790216116)
NTT(a) = [733, 66681, 147842, 92262, 130933, 107825, 114562, 127302]
NTT(b) = [666, 64598, 80332, 54468, 131236, 186644, 181708, 88232]
Pointwise product of above two lines mod M = [29419, 39913, 25015, 14993, 42695, 49488, 52438, 51319]
INTT of above line (i.e. result) = [38160, 50904, 5968, 11108, 15616, 62424, 41850, 0] (11848430946168040720)
Actual product of a x b = [38160, 50904, 71505, 142182, 81153, 62424, 41850, 0] (11848714628791561488)
在这个例子中,几乎每次我尝试它时,实际产品的元素和我的算法的结果对于向量开头和结尾附近的几个元素是相同的,但在中间它们偏离了.正如我上面提到的,ci
的每个元素都等于 a*b
模 M
的元素。我一定是对这个算法有一些误解,尽管我不完全确定是什么。我在某处使用了错误的模数吗?
最佳答案
当心数论和 NTT 不是我的专业领域,所以带着偏见阅读,但我确实成功地用 C++ 实现了 NTT并将其用于 bignum 乘法(bigint
、bigfloatingpoint
、bigfixedpoint
)所以这是我的一些见解。我强烈建议您先阅读我的两个相关 QA:
这样您就可以将您的结果/代码/常量与我的进行比较。然而,我改进了我的 NTT 以使用单个硬编码素数(适合 32 位值的最大单位根)。
现在您的代码可能出了什么问题。我没有用 python 编写代码,但我在您的问题中没有看到 NTT 代码。无论如何,从我所看到的:
检查你的 root 或 unity
在你的问题中你提到了条件:
w^N = 1 mod M
但这还远远不够。请参阅上面的第一个链接,它描述了必须满足的所有条件(带有查找和检查它的代码)。我不确定您的参数是否符合所有需要的条件,您只是忘记或遗漏了这些参数或没有所以检查一下。 IIRC 我也在那些条件下苦苦挣扎,因为当时我在那里编写了这个代码,我可以使用的 NTT 信息很少,而且大多数信息不完整或错误......
您没有使用模运算!!!
我假设你的素数是 M
(在我的术语中是 p
)所以所有的子结果都必须小于 M
这显然不是在你的例子中是真的:
M = 65537
NTT(a) = [733, 66681, 147842, 92262, 130933, 107825, 114562, 127302]
NTT(b) = [666, 64598, 80332, 54468, 131236, 186644, 181708, 88232]
如您所见,只有两个 NTT 的第一个元素有效,所有其他元素都大于 M
,这是错误的!!!
注意溢出
与你的输入值相比,你的 M
真的很小 ~16bit
看起来 ~8bit
可以溢出真的很快也会使您的 NTT 结果失效。
这里引用我的第二个链接,我发现了困难和经验的方法:
To avoid overflows for big datasets, limit input numbers to p/4 bits. Where p is number of bits per NTT element so for this 32 bit version use max (32 bit/4 -> 8 bit) input values.
所以在你的情况下你应该处理 16/4 = 4bit
block 而不是 8 位或者使用更大的 M
例如像我的 0xC0000001
即 ~32bit
。
这解释了您的观察结果,即乘积的第一个元素是好的,然后不是...意识到如果您将 2 个 8 位数字相乘,您将得到 16 位...现在意识到您正在对乘积的子结果进行更多的递归加法,因此它将得到超过 16 位 M
在你的情况下很快就在第二个值中......
总而言之,您没有使用模块化算术,素数太小和/或处理太大的数据 block 和可能也选择了错误的素数。
关于python - Schonhage-Strassen 乘法实现错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58289336/
假设我有一个 NxN 矩阵,其中充满 1 到 10 范围内的随机整数。现在我想打电话PROC(A(1:n/2, 1:n/2)+A(n/2+1:n, n/2+1:n)... 其中 n 是矩阵的大小。换句
作为作业的一部分,我试图找出 Strassen 矩阵乘法和朴素乘法算法的交叉点。但同样,当矩阵变为 256x256 时,我无法继续。有人可以建议我适当的内存管理技术,以便能够处理更大的输入。 C语言代
我们的想法是创建一个计时器,该计时器将返回执行特定功能所需的时间。我坐下来编写了一个矩阵类和一个 Strass 函数,应该将我输入其中的值相乘。 定时器函数工作正常,因为它返回执行 Strass 函数
您好,我正在尝试提高 Strassen 算法的效率,但需要一些帮助。该算法的递归关系如下: A(n) = 7A(n/2)+18(n/2)^2, for n>1, A(1) = 0. 我已经解决了这个问
使用与 Strassen's 相同的方法仅 5 次乘法就足以计算矩阵的平方。如果 A[2][2] = [a, b, c, d],则乘法为 a * a、d * d、b * (a + d)、c * (a
我正在尝试解决 Strassen 算法的奇数矩阵问题。我的实现在某个点截断递归,称之为 Q,然后切换到标准实现。因此,在进行静态填充时,我实际上不需要填充到 2 的下一个幂。我只需要填充到至少大于输入
我一直在阅读关于矩阵乘法的 Strassen 算法。 正如 Cormen 在算法导论中提到的,该算法并不直观。但是,我很想知道是否存在任何严格的算法数学证明以及算法设计中实际采用的内容。 我尝试在 G
我从某处复制了 strassen 的算法,然后执行了它。这是输出 n = 256 classical took 360ms strassen 1 took 33609ms strassen2 took
Strassen 的矩阵乘法算法仅比传统的 O(N^3) 算法略有改进。它具有更高的常数因子并且更难实现。考虑到这些缺点,strassens 算法是否真的有用,它是否在任何用于矩阵乘法的库中实现?此外
我想知道您将如何在 Strassen 算法中进行递归调用,以及它们究竟在哪里需要。 我知道 7 个乘法器比 8 个乘法器更有效,但我对如何递归计算这些乘法器感到困惑。特别是,如果我们遵循分而治之的范式
我正在尝试使用 NTT 实现 Schonhage-Strassen 乘法算法,但遇到了一个问题,即最终生成的向量实际上并不等于它应有的值。 对于两个输入向量 a 和 b,每个向量由 N 个“数字”组成
我很难构思如何实现 Strassen 版本的该算法。 对于背景,我有以下迭代版本的伪代码: def Matrix(a,b): result = [] for i in range(0,
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
就效率而言,Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少? 我知道这与具体的实现和硬件密切相关,但对于一般情况应该有某种指南或某人的一些实验结果。 在网上搜索了一下,问了一些他们认为
我们怎样才能改变 Strassen algorithm以便它适用于任何大小的矩阵(例如 n=5)? 最佳答案 您所要做的就是用 0 的行和列填充矩阵,直到它们成为大小为 2 的幂的方阵。或者换句话说:
我接到了一项任务,要用 C++ 编写 Strassen-Winograd 算法。我已经写了两次,但我的代码的第一个版本不起作用。结果矩阵左下角的结果是正确的。我的第二个版本运行速度比原始算法慢,即使
我用 C++、Python 和 Java 编写了矩阵乘法程序,并测试了它们对两个 2000 x 2000 矩阵相乘的速度(参见 post)。标准 ikj 实现 - 在 中- 拍摄: C++:15 秒(
我用 C++ 编写了两个矩阵乘法程序:Regular MM (source) , 和 Strassen 的 MM (source) ,它们都在大小为 2^k x 2^k 的方阵上运行(换句话说,是偶数
我正在尝试在 Python 中实现 Strassen 矩阵乘法。我已经让它发挥了一些作用。这是我的代码: a = [[1,1,1,1],[2,2,2,2],[3,3,3,3],[4,4,4,4]] b
我通过 Strassen 算法和 Python 3 中的朴素嵌套 for 循环实现得到了不同的矩阵乘法输出。 代码: def new_matrix(r, c): """Create a new
我是一名优秀的程序员,十分优秀!