julia - 为什么这两段 Julia 代码的表现如此不同？-6ren

julia - 为什么这两段 Julia 代码的表现如此不同？

转载作者：行者123 更新时间：2023-12-01 10:20:33

25

4

function c1()
        x::UInt64 = 0
        while x<= (10^8 * 10)
                x+=1
        end
end

function c2()
        x::UInt64 = 0
        while x<= (10^9)
                x+=1
        end
end

function c3()
        x::UInt64 = 0
        y::UInt64 = 10^8 * 10
        while x<= y
                x+=1
        end
end

function c4()
        x::UInt64 = 0
        y::UInt64 = 10^9
        while x<= y
                x+=1
        end
end

应该是一样的吧？

@time c1()

0.019102 seconds (40.99 k allocations: 2.313 MiB)

@time c1()

0.000003 seconds (4 allocations: 160 bytes)

@time c2()

9.205925 seconds (47.89 k allocations: 2.750 MiB)

@time c2()

9.015212 seconds (4 allocations: 160 bytes)

@time c3()

0.019848 seconds (39.23 k allocations: 2.205 MiB)

@time c3()

0.000003 seconds (4 allocations: 160 bytes)

@time c4()

0.705712 seconds (47.41 k allocations: 2.719 MiB)

@time c4()

0.760354 seconds (4 allocations: 160 bytes)

最佳答案

这是关于 Julia 使用乘方幂对文字进行编译时优化。如果指数可以通过单独的乘方幂或幂为 0、1、2、3 来达到，Julia 能够进行优化。我相信这是通过降低 x^p 完成的至 x^Val{p}对于整数 p并使用编译器特化(或内联加上一种元编程，我不确定这里的正确术语是什么，但它就像你会在 Lisp 中找到的东西；类似的技术用于 Julia 中的源到源自动区分，参见 Zygote.jl ) 如果 p 将代码降低到常量的技术是 0、1、2、3 或 2 的幂。

Julia 降低 10^8内联 literal_pow (然后是 power_by_squaring )，这被降低到一个常数然后 Julia 降低 constant * 10获得另一个常量，然后意识到所有的 while 循环都是不必要的，并在编译时删除循环等等。

如果您更改 10^8与 10^7在 c1您将看到它将在运行时评估数字和循环。但是，如果替换 10^8与 10^4或 10^2您将看到它将在编译时处理所有计算。如果指数是 2 的幂，我认为 julia 没有专门设置为编译时优化，而是编译器结果证明能够针对这种情况优化(将代码降低为常量)代码。
p的情况is 1,2,3 在 Julia 中是硬编码的。这是通过将代码降低到 literal_pow 的内联版本再次优化的。然后编译特化。

您可以使用 @code_llvm和 @code_native宏来看看发生了什么。咱们试试吧。

julia> f() = 10^8*10
julia> g() = 10^7*10

julia> @code_native f()
.text
; Function f {
; Location: In[101]:2
    movl    $1000000000, %eax       # imm = 0x3B9ACA00
    retq
    nopw    %cs:(%rax,%rax)
;}

julia> @code_native g()
.text
; Function g {
; Location: In[104]:1
; Function literal_pow; {
; Location: none
; Function macro expansion; {
; Location: none
; Function ^; {
; Location: In[104]:1
    pushq   %rax
    movabsq $power_by_squaring, %rax
    movl    $10, %edi
    movl    $7, %esi
    callq   *%rax
;}}}
; Function *; {
; Location: int.jl:54
    addq    %rax, %rax
    leaq    (%rax,%rax,4), %rax
;}
    popq    %rcx
    retq
;}

见 f()原来只是一个常数，而 g()将在运行时评估东西。

我认为 Julia 在 this commit 附近开始了这个整数取幂技巧如果你想挖掘更多。

编辑:让我们编译时优化 c2
我还准备了一个函数来计算整数整数指数， Julia 也将用它优化非 2 的幂指数。不过，我不确定它在所有情况下都是正确的。

@inline function ipow(base::Int, exp::Int)
    result = 1;
    flag = true;
    while flag
        if (exp & 1  > 0)
            result *= base;
        end
        exp >>= 1;
        base *= base;
        flag = exp != 0
    end

    return result;
end

现在更换您的 10^9在 c2与 ipow(10,9) ，并享受编译时优化的力量。

另见 this question为幂次方。

请不要按原样使用此函数，因为它会尝试内联所有求幂，无论它是否包含文字。你不会想要那样的。

关于julia - 为什么这两段 Julia 代码的表现如此不同？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53093209/

25

4

0

文章推荐： oauth - 使用 Google/Facebook OpenID 的 Yahoo OAuth 授权问题

文章推荐： java - 使用二维数组熄灯游戏

pthreads - sleep 表现
我正在用 C++ 开发一个程序，我必须实现一个 cron。由于不同的原因，这个 cron 应该每小时和每 24 小时执行一次。我的第一个想法是创建一个独立的 pthread 并在每次 1h 内休眠。这
javascript - 具有不同纹理的多个体素。表现
我需要向同一场景几何添加多个体素(立方体等于)，但每个体素具有不同的纹理。我的体素超过 500 个，导致性能出现严重错误。这是我的代码: texture = crearTextura(voxel.
mysql - 每个用户保存相似记录的单个表还是单独的表？ (表现？？)
对于 MySQL 数据库，我有 2 个场景，我不确定该选择哪一个，并且对于一些表我也遇到了同样的困境。我正在制作一个仅供成员(member)访问的网络应用程序。每个成员都有自己的交易、费用和“列表”
css - 我应该使用哪个？ (表现)
我想知道一个简单的事情: 当设置一个被所有 child 继承的样式时，是否建议最具体？ Structure: html > body > parent_content > wrapper > p 我想
c++ - 矩阵的乘法。表现
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
java - JPA中的显式和隐式JOIN有什么区别？ (表现)
这些天我正在阅读有关 JPA 的内容。我了解到可以在 JPQL 中使用 explicit 或 implicit JOIN。显式加入 em.createQuery(“SELECT b.title, p
c# - 字符串连接与字符串生成器。表现
我有一种情况需要连接几个字符串以形成一个类的 id。基本上，我只是在列表中循环以获取对象的 ToString 值，然后将它们连接起来。 foreach (MyObject o in myList)
javascript - Canvas fillStyle 表现
我正在检查我的游戏在拖尾效果下的性能会降低多少。但我注意到每秒的操作次数更多了。这怎么可能？这是怎么回事... context.fillRect(0, 0, 500, 500); // cl
php - PHP 中的全局变量或传递变量？ (表现)
如果我可以选择使用全局变量或传递变量，哪个选项在速度和内存使用方面更好？ // global variable function func(){ global $var; echo $var;
mysql select 按主键排序。表现
我有一个类似这样的表“tbl”:ID bigint(20) - 主键，自增字段1字段2字段3 该表有 60 万多行。查询:SELECT * from tbl ORDER by ID LIMIT 60
algorithm - 旅行商 (TSP) 表现
谁能告诉我，我如何比较 TSP 最优和启发式算法？我已经实现了 TSP，但不知道如何比较它们。事实上，我怎样才能找到 TSP 的最优成本？有什么方法或猜测吗？谢谢最佳答案用众所周知的基准实例检查
ios - NSTextStorage 里面有长文本。表现
我有一个 NSTextStorage里面有长文本(比如一本书有 500 页，当前字体在设备上超过 9000 页)。我以这种方式为 textcontainer 分发此文本: let textStorag
c# - 按邮政编码查找产品 |半正弦算法 |表现
我有一个根据邮政编码搜索项目的应用程序。在搜索邮政编码时，我返回了来自该城市/社区的所有产品(通过解析邮政编码完成)。我现在需要根据与原始邮政编码的距离对这些产品进行分类。我将纬度/经度存储在数
performance - MPI Alltoallv或更好的个人Send and Recv？ (表现)
我有许多进程(大约100到1000个进程)，每个进程都必须向其他进程(例如大约10个)发送一些数据。 (通常，但不一定总是这样，如果A发送给B，B也发送给A。)每个进程都知道必须从哪个进程接收多少数据
performance - 带有 shouldComponentUpdate 的组件与无状态组件。表现？
我知道无状态组件使用起来更舒服(在特定场景下)，但是既然你不能使用shouldComponentUpdate，这是否意味着组件将在每次props更改时重新渲染？我的问题是，使用带有智能 shouldC
javascript - CSS/JS 即时缩小？ (表现)
我正在研究 Google Pagespeed 的加速页面加载时间指南列表。其中之一是缩小 CSS 和 JS 文件。由于这些文件经常更改，我正在考虑使用 PHP 脚本根据请求(来自浏览器)即时缩小此脚
MySQL 选择每个运动员的最佳(和最老)表现、类别
我正在尝试从下表构建 SQL 查询(示例): Example of table with name "performances" 这是带有运动表现的表格。我想从这个表中选择每个学科和一组一个或多个类别
c++ - 表现。寻找子串。 substr 与查找
假设我们有一个字符串 var "sA"，我想检查字符串 "123"是否在 sA 的末尾。什么更好，为什么: if(sA.length() > 2) sA.substr(sA.length()-3)
c# - Linq group by property 表现
关于受这篇文章启发的可参数化查询 LINQ group by property as a parameter我获得了一个很好的参数化查询，但在性能上有一个缺点。 public static void
c++ - 运算符(operator)表现|与运营商+
| 和| 之间有什么主要区别吗？和 + 从长远来看会影响代码的性能吗？或者都是 O(1)？我正在使用的代码是这样的: uint64_t dostuff(uint64_t a,uint64_t b){

首页

博学

6Ren·AI

商城

julia - 为什么这两段 Julia 代码的表现如此不同？