- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我在我的 C++ 项目中使用了 2 个在 visual studio 中用汇编 (masm) 编写的函数。它们是产生 128 位结果的无符号 64 位乘法函数,以及产生 128 位商并返回 32 位余数的无符号 128 位除法函数。
我需要的是函数的签名版本,但我不确定该怎么做。
下面是带有无符号函数的 .asm 文件的代码:
.MODEL flat, stdcall
.CODE
MUL64 PROC, A:QWORD, B:QWORD, pu128:DWORD
push EAX
push EDX
push EBX
push ECX
push EDI
mov EDI,pu128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B
MUL EDX
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B+4
MUL EDX
ADD EAX,ECX
ADC EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B
MUL EDX
ADD EAX,EBX
ADC ECX,EDX
PUSHFD ; Save carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B+4
MUL EDX
POPFD ; Retrieve carry from above.
ADC EAX,ECX
ADC EDX,0
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
pop EDI
pop ECX
pop EBX
pop EDX
pop EAX
ret 20
MUL64 ENDP
IMUL64 PROC, A:SQWORD, B:SQWORD, pi128:DWORD
; How to make this work?
ret 20
IMUL64 ENDP
DIV128 PROC, pDividend128:DWORD, Divisor:DWORD, pQuotient128:DWORD
push EDX
push EBX
push ESI
push EDI
MOV ESI,pDividend128
MOV EDI,pQuotient128
MOV EBX,Divisor
XOR EDX,EDX
MOV EAX,[ESI+12]
DIV EBX
MOV [EDI+12],EAX
MOV EAX,[ESI+8]
DIV EBX
MOV [EDI+8],EAX
MOV EAX,[ESI+4]
DIV EBX
MOV [EDI+4],EAX
MOV EAX,[ESI]
DIV EBX
MOV [EDI],EAX
MOV EAX,EDX
pop EDI
pop ESI
pop EBX
pop EDX
ret 12
DIV128 ENDP
IDIV128 PROC, pDividend128:DWORD, Divisor:DWORD, pQuotient128:DWORD
; How to make this work?
ret 12
IDIV128 ENDP
END
如果您发现这有帮助,请通过帮助编写函数的签名版本来帮助该项目。
最佳答案
首先,MUL64函数不是100%起作用
如果你尝试做 0xFFFFFFFFFFFFFFFF x 0xFFFFFFFFFFFFFFFF,Hi 64 位结果是 0xFFFFFFFeFFFFFFFF,它应该是 0xFFFFFFFFFFFFFFFe
为了解决这个问题,POPFD
之后的进位标志指令应添加到 EDX,即结果的最高 32 位部分。现在按照 Peter Cordes 的建议,移除 EAX/ECX/EDX 的推送和弹出。最后使用setc BL
和 movzx EBX,BL
保存标志。注意:您不能轻易使用 xor EBX,EBX
将其归零,因为 xor
影响标志。我们使用 movzx
因为它比 add BL,0xFF
快和 add
比 adc
快基于 Skylake 规范。
结果:
MUL64 PROC, A:QWORD, B:QWORD, pu128:DWORD
push EBX
push EDI
mov EDI,pu128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B
mul EDX
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B+4
mul EDX
add EAX,ECX
adc EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B
mul EDX
add EAX,EBX
adc ECX,EDX
setc BL ; Save carry.
movzx EBX,BL ; Zero-Extend carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B+4
mul EDX
add EDX,EBX ; Add carry from above.
add EAX,ECX
adc EDX,0
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
pop EDI
pop EBX
ret 20
MUL64 ENDP
现在,要生成函数的签名版本,请使用以下公式:
my128.Hi -= (((A < 0) ? B : 0) + ((B < 0) ? A : 0));
结果:
IMUL64 PROC, A:SQWORD, B:SQWORD, pi128:DWORD
push EBX
push EDI
mov EDI,pi128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B
mul EDX
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B+4
mul EDX
add EAX,ECX
adc EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B
mul EDX
add EAX,EBX
adc ECX,EDX
setc BL ; Save carry.
movzx EBX,BL ; Zero-Extend carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B+4
mul EDX
add EDX,EBX ; Add carry from above.
add EAX,ECX
adc EDX,0
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
; Signed version only:
cmp DWORD PTR A+4,0
jg zero_b
jl use_b
cmp DWORD PTR A,0
jae zero_b
use_b:
mov ECX,DWORD PTR B
mov EBX,DWORD PTR B+4
jmp test_b
zero_b:
xor ECX,ECX
mov EBX,ECX
test_b:
cmp DWORD PTR B+4,0
jg zero_a
jl use_a
cmp DWORD PTR B,0
jae zero_a
use_a:
mov EAX,DWORD PTR A
mov EDX,DWORD PTR A+4
jmp do_last_op
zero_a:
xor EAX,EAX
mov EDX,EAX
do_last_op:
add EAX,ECX
adc EDX,EBX
sub [EDI+8],EAX
sbb [EDI+12],EDX
; End of signed version!
pop EDI
pop EBX
ret 20
IMUL64 ENDP
DIV128 函数应该可以(也可能是最快的)从 32 位除数中获取 128 位商,但是如果您需要使用 128 位除数,那么请查看此代码 https://www.codeproject.com/Tips/785014/UInt-Division-Modulus其中有一个使用二进制移位算法进行 128 位除法的示例。如果用汇编编写,速度可能会快 3 倍。
要制作有符号版本的 DIV128,首先要确定除数和被除数的符号是否相同。如果它们相同,那么结果应该是肯定的。如果它们不同,那么结果应该是负的。所以... 如果被除数和除数是负数,则将它们设为正数,然后调用 DIV128,然后,如果符号不同,则取反结果。
这是一些用 C++ 编写的示例代码
VOID IDIV128(PSDQWORD Dividend, PSDQWORD Divisor, PSDQWORD Quotient, PSDQWORD Remainder)
{
BOOL Negate;
DQWORD DD, DV;
Negate = TRUE;
// Use local DD and DV so Dividend and Divisor dont get currupted.
DD.Lo = Dividend->Lo;
DD.Hi = Dividend->Hi;
DV.Lo = Divisor->Lo;
DV.Hi = Divisor->Hi;
// if the signs are the same then: Negate = FALSE;
if ((DD.Hi & 0x8000000000000000) == (DV.Hi & 0x8000000000000000)) Negate = FALSE;
// Covert Dividend and Divisor to possitive if negative: (negate)
if (DD.Hi & 0x8000000000000000) NEG128((PSDQWORD)&DD);
if (DV.Hi & 0x8000000000000000) NEG128((PSDQWORD)&DV);
DIV128(&DD, &DV, (PDQWORD)Quotient, (PDQWORD)Remainder);
if (Negate == TRUE)
{
NEG128(Quotient);
NEG128(Remainder);
}
}
编辑:
根据 Peter Cordes 的建议,我们可以进一步优化 MUL64/IMUL64。查看正在进行的特定更改的注释。我也更换了MUL64 PROC, A:QWORD, B:QWORD, pu128:DWORD
与 MUL64@20:
和 IMUL64@20:
消除对 masm 添加的 EBP 的不必要使用。我还优化了 IMUL64 的符号修复工作。
MUL64/IMUL64 的当前 .asm 文件
.MODEL flat, stdcall
EXTERNDEF MUL64@20 :PROC
EXTERNDEF IMUL64@20 :PROC
.CODE
MUL64@20:
push EBX
push EDI
; -----------------
; | pu128 |
; |---------------|
; | B |
; |---------------|
; | A |
; |---------------|
; | ret address |
; |---------------|
; | EBX |
; |---------------|
; ESP---->| EDI |
; -----------------
A TEXTEQU <[ESP+12]>
B TEXTEQU <[ESP+20]>
pu128 TEXTEQU <[ESP+28]>
mov EDI,pu128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mul DWORD PTR B
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mul DWORD PTR B+4
add EAX,ECX
adc EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mul DWORD PTR B
add EAX,EBX
adc ECX,EDX
setc BL ; Save carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mul DWORD PTR B+4
add EAX,ECX
movzx ECX,BL ; Zero-Extend saved carry from above.
adc EDX,ECX
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
pop EDI
pop EBX
ret 20
IMUL64@20:
push EBX
push EDI
; -----------------
; | pi128 |
; |---------------|
; | B |
; |---------------|
; | A |
; |---------------|
; | ret address |
; |---------------|
; | EBX |
; |---------------|
; ESP---->| EDI |
; -----------------
A TEXTEQU <[ESP+12]>
B TEXTEQU <[ESP+20]>
pi128 TEXTEQU <[ESP+28]>
mov EDI,pi128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mul DWORD PTR B
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mul DWORD PTR B+4
add EAX,ECX
adc EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mul DWORD PTR B
add EAX,EBX
adc ECX,EDX
setc BL ; Save carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mul DWORD PTR B+4
add EAX,ECX
movzx ECX,BL ; Zero-Extend saved carry from above.
adc EDX,ECX
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
; Signed version only:
mov BL,BYTE PTR B+7
and BL,80H
jz zero_a
mov EAX,DWORD PTR A
mov EDX,DWORD PTR A+4
jmp test_a
zero_a:
xor EAX,EAX
mov EDX,EAX
test_a:
mov BL,BYTE PTR A+7
and BL,80H
jz do_last_op
add EAX,DWORD PTR B
adc EDX,DWORD PTR B+4
do_last_op:
sub [EDI+8],EAX
sbb [EDI+12],EDX
; End of signed version!
pop EDI
pop EBX
ret 20
END
关于algorithm - 汇编中 x86 上的带符号 64 位乘法和 128 位除法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48669484/
我正在尝试编写一个简单的除法函数,但出现错误 PS C:\Users\john> Function Div($x, $y) { $x / $y } PS C:\Users\john> Div (1,
试图找出这个伪代码。以下假设...... 我只能使用无符号和有符号整数(或长整数)。 除法返回一个没有余数的实数。 MOD 返回一个实数。 不处理分数和小数。 INT I = 41828; INT C
如果我有以下表格并且我在关系代数中执行 R1/R2,结果会是一个具有 A 值 1 和 3 的表格吗?我有点困惑,因为我知道 3 将是一个结果,因为它包含 5 和 1,但结果 1 除了匹配的值之外还有
//Declare and intialize variables - programmer to provide initial values Scanner in = new Scanne
除法运算符在 scala BigDecimal 上有什么用? val d1 = BigDecimal(2) val d2 = BigDecimal(3) val div = d1 / d2 //thr
这个问题在这里已经有了答案: How can I divide properly using BigDecimal (2 个答案) 关闭 6 年前。 我在这里做错了什么?很确定这是正确的,我能够打印
好的 - 已经为此苦苦挣扎了一段时间。我刚刚开始学习 Python,所以非常新。 我有一个元组列表,需要按每个元组中值的比率进行排序。 输入: L = [(1,3), (1,7), (4,8)] 返回
我有一个奇怪的问题,我收到计算机生成的方程式(作为字符串),其中偶尔会出现零或一和零的乘法/除法。这些等式将以字符串形式呈现给用户。 我知道我可以通过实现一种解析器来删除等式中的这些冗余部分,但我很好
我有两个变量:count,这是我过滤的对象的数量,以及每页的常量值。我想将计数除以 per_page 并获得整数值,但无论我尝试什么 - 我都得到 0 或 0.0: >>> count = frien
我尝试在 Go 中获得 2.4/0.8 == 3 w:=float64(2.4) fmt.Println(math.Floor(w/0.8),math.Floor(2.4/0.8) ) 它给了我“2
程序清单: # val_caculate.py a = 10 # a是整数 print('10/3 = ',10/3) print('9/3 = ',9/3) pri
我是 java 新手,所以我需要你对我正在进行的项目的帮助!我定义了一些计数器,这些是我将使用的: int[] acceptCounters = {}; int[] acceptFailCounter
我正在除 2 个 BigInteger 值 N = 9440056782685472448790983739834832785827768777249804302814308027414135716
我的应用程序中有使用 array.reduce 将数字相乘的代码。它看起来像这样: // Private function to multiply field values together func
我目前创建了一个名为 Array Math 的类,它将乘法加载到 10x10 数组中,如代码下显示的图像所示,但是我想要做的是在乘法后将每个位置除以 2。换句话说,(行 * 列)/2 目前我只是将这些
我正在使用代表货币金额的 BigDecimal 值。我需要将此金额分成 6 个费率,前 5 个费率四舍五入为 5,其余的为第 6 个费率。 BigDecimal numberOfRates = new
这个问题必须使用递归来解决。 我尝试使用 “else” 之后的代码来使用 int temp 计算商,该 temp 计算可以除以多少次 (temp = dividend - divisor)。 int
我知道这一定是有史以来最简单的事情,但我是这里的初学者。为什么我运行时会出现语法错误 document.write(10 / 2 + ""); //Divide 10 by 5 to get 2
这应该是一个非常基本的东西,但不知何故我没有看到问题。 #include template inline void i2c(const int & ind, int & i, int &j) {
我正在做课本中的一些家庭作业,并且有一些关于某些算术运算的浮点舍入/精度的问题。 如果我像这样从 int 中转换 double : int x = random(); double dx = (dou
我是一名优秀的程序员,十分优秀!