- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
对于我的 BigInteger 代码,对于非常大的 BigIntegers,输出速度很慢。所以现在我使用递归分治算法,仍然需要 2'30"将当前最大的已知素数转换为超过 2200 万位的十进制字符串(但将其转换为十六进制字符串只需要 135 ms) .
我仍然想减少时间,所以我需要一个可以非常快速地将 NativeUInt(即 32 位平台上的 UInt32,64 位平台上的 UInt64)除以 100 的例程。所以我使用乘以常数。这在 32 位代码中工作得很好,但我不能 100% 确定在 64 位代码中。
所以我的问题是:有没有办法检查无符号 64 位值与常量相乘结果的可靠性?我通过简单地尝试 UInt32 (0..$FFFFFFFF) 的所有值来检查 32 位值。这大约需要。 3分钟。检查所有 UInt64 将花费比我一生更长的时间。有没有办法检查所使用的参数(常数、移位后)是否可靠?
我注意到,如果所选参数错误(但接近),对于像 $4000004B
这样的值,DivMod100()
总是会失败。是否有特殊值或范围来检查 64 位,以便我不必检查所有值?
我当前的代码:
const
{$IF DEFINED(WIN32)}
// Checked
Div100Const = UInt32(UInt64($1FFFFFFFFF) div 100 + 1);
Div100PostShift = 5;
{$ELSEIF DEFINED(WIN64)}
// Unchecked!!
Div100Const = $A3D70A3D70A3D71;
// UInt64(UInt128($3 FFFF FFFF FFFF FFFF) div 100 + 1);
// UInt128 is fictive type.
Div100PostShift = 2;
{$IFEND}
// Calculates X div 100 using multiplication by a constant, taking the
// high part of the 64 bit (or 128 bit) result and shifting
// right. The remainder is calculated as X - quotient * 100;
// This was tested to work safely and quickly for all values of UInt32.
function DivMod100(var X: NativeUInt): NativeUInt;
{$IFDEF WIN32}
asm
// EAX = address of X, X is UInt32 here.
PUSH EBX
MOV EDX,Div100Const
MOV ECX,EAX
MOV EAX,[ECX]
MOV EBX,EAX
MUL EDX
SHR EDX,Div100PostShift
MOV [ECX],EDX // Quotient
// Slightly faster than MUL
LEA EDX,[EDX + 4*EDX] // EDX := EDX * 5;
LEA EDX,[EDX + 4*EDX] // EDX := EDX * 5;
SHL EDX,2 // EDX := EDX * 4; 5*5*4 = 100.
MOV EAX,EBX
SUB EAX,EDX // Remainder
POP EBX
end;
{$ELSE WIN64}
asm
.NOFRAME
// RCX is address of X, X is UInt64 here.
MOV RAX,[RCX]
MOV R8,RAX
XOR RDX,RDX
MOV R9,Div100Const
MUL R9
SHR RDX,Div100PostShift
MOV [RCX],RDX // Quotient
// Faster than LEA and SHL
MOV RAX,RDX
MOV R9D,100
MUL R9
SUB R8,RAX
MOV RAX,R8 // Remainder
end;
{$ENDIF WIN32}
最佳答案
像往常一样,在编写优化代码时,使用编译器输出作为提示/起点。可以安全地假设它所做的任何优化在一般情况下都是安全的。错误代码编译器错误很少见。
gcc 实现了无符号 64 位 divmod,常量为 0x28f5c28f5c28f5c3
。我还没有详细研究生成除法常量,但是有一些生成它们的算法可以给出已知的良好结果(因此不需要详尽的测试)。
该代码实际上有一些重要的区别:它使用的常量与 OP 的常量不同。
请参阅评论来分析它实际上在做什么:首先除以 4,因此它可以使用一个仅适用于当被除数足够小时除以 25 的常量。这也避免了以后需要添加。
#include <stdint.h>
// rem, quot ordering takes one extra instruction
struct divmod { uint64_t quotient, remainder; }
div_by_100(uint64_t x) {
struct divmod retval = { x%100, x/100 };
return retval;
}
compiles to (gcc 5.3 -O3 -mtune=haswell
) :
movabs rdx, 2951479051793528259
mov rax, rdi ; Function arg starts in RDI (SysV ABI)
shr rax, 2
mul rdx
shr rdx, 2
lea rax, [rdx+rdx*4] ; multiply by 5
lea rax, [rax+rax*4] ; multiply by another 5
sal rax, 2 ; imul rax, rdx, 100 is better here (Intel SnB).
sub rdi, rax
mov rax, rdi
ret
; return values in rdx:rax
使用“二进制”选项查看十六进制常量,因为反汇编器输出就是这样做的,这与 gcc 的 asm 源输出不同。
<小时/>gcc 使用上述 lea/lea/shl 序列,与您的问题中的相同。您的答案是使用 mov imm
/mul
序列。
你们的评论都说他们选择的版本更快。如果是这样,那是因为一些微妙的指令对齐或其他次要影响:在 Intel SnB 系列上,它是 the same number of uops (3) ,以及相同的关键路径延迟(mov imm
不在关键路径上,mul
为 3 个周期)。
clang uses我认为最好的选择(imul rax, rdx, 100
)。在看到 clang 选择它之前我就想到了这一点,但这并不重要。那是 1 个融合域 uop(只能在 p0 上执行),仍然具有 3c 延迟。因此,如果您使用此例程进行多精度处理时受到延迟限制,它可能不会有帮助,但它是最好的选择。 (如果您受到延迟限制,将代码内联到循环中而不是通过内存传递参数之一可以节省大量周期。)
imul
之所以有效,是因为 you're only using the low 64b of the result 。 mul
不存在 2 或 3 个操作数形式,因为无论输入的有符号或无符号解释如何,结果的低半部分都是相同的。
顺便说一句,带有 -march=native
的 clang 使用 mulx
表示 64x64->128,而不是 mul
,但没有增益任何东西。根据 Agner Fog 的表格,它的延迟比 mul
差一个周期。
AMD 对于 imul r,r,i
(尤其是 64b 版本)的延迟比 3c 还要差,这也许就是 gcc 避免使用它的原因。我不知道 gcc 维护者在调整成本上投入了多少工作,因此像 -mtune=haswell
这样的设置工作良好,但是很多代码不是用任何 -mtune 编译的
设置(即使是 -march
隐含的设置),因此当 gcc 做出最适合旧 CPU 或 AMD 的选择时,我并不感到惊讶。
clang 仍然使用 imul r64, r64, imm
和 -mtune=bdver1
(Bulldozer),这可以节省 m-ops,但比使用多 1c 延迟为代价lea/lea/shl. (在 Bulldozer 上,比例>1 的 lea 延迟为 2c)。
关于delphi - 检查 64 位常数乘法参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35100712/
我需要根据需要动态设置文本区域,但它不想正常工作。 JQuery 会自行检查,但无法检查是否已检查。但是当您在第二个单选框内单击时,始终需要文本区域。我尝试了很多次让它工作,但它仍然有问题。我添加了“
我需要在 Django 中进行 API 调用(某种形式),作为我们所需的自定义身份验证系统的一部分。用户名和密码通过 SSL 发送到特定 URL(对这些参数使用 GET),响应应该是 HTTP 200
我将在我的可移植 C 代码中使用 #warning 来生成编译时警告。但并非所有平台都支持 #warning。有什么方法可以找到该平台是否支持 #warning。 #ifdef warning
我编写了一个函数来检查某个数字是否存在于某个区间内。停止搜索的最佳方法是什么?这个: for (i = a; i <= b; i++) { fi = f(i); if (fi == c) {
我想知道在 c 中是否有一种方法可以检查,例如在 for 函数中,如果变量等于或不等于某些字符,而不必每次都重复进行相等性检查。如果我没记错的话,以这种方式检查相等性是不正确的: if (a == (
我有如下日志功能 void log_error(char * file_name, int line_num, int err_code) { printf("%s:%d:%s\n", fil
使用 ssh-keygen 生成的 key 对在 macOS 上可以有不同的格式。 macOS 可读的标准 PEM ASN.1 对象 SecKey API 带有文本标题的 PEM OpenSSH ke
我正在尝试编写一个 excel if 语句。我不熟悉使用 Excel 具有的所有额外功能。我正在使用一个名为 importXML() 的函数.我正在尝试检查我正在使用的函数是否生成“#VALUE!”错
有没有办法检查是否没有 AIO 写入给定文件?我在我的 Unix 类(class)上制作了一个项目,该项目将是一个上下文无关(基于 UDP)的国际象棋服务器,并且所有数据都必须存储在文件中。应用程序将
我有一个如下所示的函数: public Status execute() { Status status = doSomething(); if (status != Stat
我正在使用 Composer,我不希望 PhpStorm 在 vendor 文件夹上运行任何错误检查或检查,因为它对 vendor/中的某些代码显示误报composer/autoload_static
Chapel 的一个很好的特性是它区分了数组的域和它的分布。检查两个数组是否具有相同的域和分布(通常想要的)的最佳方法是什么? 我能看到的最好的方法是检查 D1==D2和 D1.dist==D2.di
在我的 JavaScript 函数中,我为所有输入、文本区域和选择字段提供实际值作为 initial_value: $('input, textarea, select').each(function
我正在编写一个分解为几个简单函数的 PHP 类。在构造函数中,它调用另一个名为 processFile 的函数。该函数调用 5 个私有(private)函数并进行检查。如果检查失败,它会将消息分配给
这个问题已经有答案了: How to detect if user it trying to open a link in a new tab? (2 个回答) 已关闭 7 年前。 我认为 JavaS
我正在浏览我们的代码库并看到很多这样的测试: declare @row_id int = ... declare @row_attribute string select @row_attribu
我正在声明一个用作比较的函数。我的问题是: 为什么条件充当语句? 为什么第 4 行可以工作,而第 5 行却不行? 我知道这段代码不切实际且未使用,但为什么编译器允许这种语法? 谷歌没有找到答案。但话又
到目前为止,我有一个带有空文本字段的 PHP Kontaktform,并使用以下命令检查了所需的字段: $name = check_input($_POST['name'], "请输入姓名。"); 现
目前,我能想到的合理检查的唯一方法没有臃肿的逻辑: if ( $value > 0 ) { // Okay } else { // Not Okay } 有没有更好的办法? 最佳答案
我正在尝试运行一个脚本,如果 i 存在(意味着存在 i 值,任何值)或其他部分,我希望运行其中的一部分如果i没有值就运行,有人可以启发我吗? 我说的是 for 循环,比如 for (var i=0;
我是一名优秀的程序员,十分优秀!