arrays - `replace` 与普通 `loop` 在 SBCL 中复制大型数组

转载作者：行者123 更新时间：2023-12-03 03:03:34

问题描述

假设您想要在 SBCL 中复制大型专用数组。当然，您希望它速度快、内存效率高，并且语法良好。

执行此操作的两种方法是:

(defparameter *arr1* (make-array 100000 :element-type 'double-float
                                        :initial-element 1d0))
(defparameter *arr2* (make-array 100000 :element-type 'double-float
                                        :initial-element 0d0))

;; First method
(replace arr2 arr1 :start1 20000 :end1 90000)
;; Second method
(loop for i from 20000 below 90000 do
  (setf (aref arr2 i) (aref arr1 i)))

乍一看，replace 似乎更好，因为它的语法紧凑，但基准测试结果阻止我一直使用它。

比较`replace`与`loop`的性能

我怀疑这高度依赖于平台和编译器。我在 AMD Ryzen 第一代 CPU 上的 Linux x86_64 5.1.3_1 上使用了 SBCL 1.5.2。

为了进行比较，让我们编写一些测试:

(defun spec-replace (arr1 arr2)
  (declare (type (simple-array double-float) arr1 arr2)
                 (optimize (speed 3)))
  (replace arr2 arr1 :start1 20000 :end1 90000))

(defun spec-loop (arr1 arr2)
  (declare (type (simple-array double-float) arr1 arr2)
                 (optimize (speed 3)))
  (loop for i from 20000 below 90000 do
    (setf (aref arr2 i) (aref arr1 i))))

(declaim (inline spec-loop spec-replace))

(let ((arr1 (make-array 100000 :element-type 'double-float
                               :initial-element 1d0))
      (arr2 (make-array 100000 :element-type 'double-float
                               :initial-element 0d0)))
  (time (spec-replace arr1 arr2))
  (time (spec-loop arr1 arr2)))

您有以下选择:

切换每个功能的(速度 3)。
切换每个函数的内联声明。

结果似乎是这样的:

spec-loop 和 spec-replace 在优化或未优化但均未内联时与 CPU 周期数相关。
spec-loop 具有巨大的优势。速度介于 x3 或 x4 之间。
完全优化的 spec-loop 的 disassemble 输出比 spec-replace 短很多。

问题

由于这两种方法相当简单，并且在概念上执行相同的操作，为什么 SBCL 不能将它们优化为完全相同的编译指令？除了尚未在 SBCL 中实现之外，还有其他原因吗？
使用 replace 语法编写扩展为 loop 方法的宏有用吗？
我猜测循环优化是以更高的内存使用为代价的，因为默认优化和(速度3)之间存在差异。在大量使用这种操作的大型项目中，我是否会遇到 yield 递减点？

当然，这一切的答案是:根据具体情况进行测试。但是有人可以分享一些关于此类问题的智慧吗？

最佳答案

询问 REPLACE 的来源会导致不同的可能来源(Emacs + Slime、M-.(元点)):

..../sbcl/src/code/seq.lisp
  (DEFUN REPLACE)
..../sbcl/src/compiler/seqtran.lisp
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY CHARACTER (*)) SIMPLE-BASE-STRING &REST T) "optimize")
  (:DEFTRANSFORM REPLACE (SIMPLE-BASE-STRING (SIMPLE-ARRAY CHARACTER (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE (SIMPLE-VECTOR SIMPLE-VECTOR &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (COMPLEX DOUBLE-FLOAT) (*)) (SIMPLE-ARRAY (COMPLEX DOUBLE-FLOAT) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (COMPLEX SINGLE-FLOAT) (*)) (SIMPLE-ARRAY (COMPLEX SINGLE-FLOAT) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (SIGNED-BYTE 64) (*)) (SIMPLE-ARRAY (SIGNED-BYTE 64) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY FIXNUM (*)) (SIMPLE-ARRAY FIXNUM (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (SIGNED-BYTE 32) (*)) (SIMPLE-ARRAY (SIGNED-BYTE 32) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (SIGNED-BYTE 16) (*)) (SIMPLE-ARRAY (SIGNED-BYTE 16) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (SIGNED-BYTE 8) (*)) (SIMPLE-ARRAY (SIGNED-BYTE 8) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 64) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 64) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 63) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 63) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 62) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 62) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 32) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 32) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 31) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 31) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 16) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 16) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 15) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 15) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 8) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 8) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 7) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 7) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 4) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 4) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY (UNSIGNED-BYTE 2) (*)) (SIMPLE-ARRAY (UNSIGNED-BYTE 2) (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE (SIMPLE-BIT-VECTOR SIMPLE-BIT-VECTOR &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY DOUBLE-FLOAT (*)) (SIMPLE-ARRAY DOUBLE-FLOAT (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY SINGLE-FLOAT (*)) (SIMPLE-ARRAY SINGLE-FLOAT (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE ((SIMPLE-ARRAY CHARACTER (*)) (SIMPLE-ARRAY CHARACTER (*)) &REST T) "optimize")
  (:DEFTRANSFORM REPLACE (SIMPLE-BASE-STRING SIMPLE-BASE-STRING &REST T) "optimize")
..../sbcl/src/compiler/knownfun.lisp
  (:DEFOPTIMIZER REPLACE SB-C:DERIVE-TYPE)
..../sbcl/src/compiler/fndb.lisp
  (DECLAIM REPLACE SB-C:DEFKNOWN)

我们感兴趣的是 SIMPLE-ARRAY 或 DOUBLE-FLOAT 的优化器。遵循交叉引用会导致 sbcl/src/compiler/seqtran.lisp 中出现一些可疑的行，调用宏 (define-replace-transforms) (位于第 999 行)最终依赖于同一文件中的 !make-replace-transform。

该函数前面有一个关于如何实现循环的大注释。

代码分支到不同的实现，但是函数中直接可见的一个实现可能对测试有用，作为另一个基准，基于函数的注释；内容如下:

    (do ((i start1 (1+ i))
         (j start2 (1+ j))
         (end (+ start1 replace-len)))
        ((>= i end))
      (declare (optimize (insert-array-bounds-checks 0)))
      (setf (aref seq1 i) (aref seq2 j)))

例如，执行 do 循环的结果如下:

(deftype double-array () '(simple-array double-float (*)))

(declaim (type double-array *arr1* *arr2*))

(defparameter *arr1*
  (make-array 100000 :element-type 'double-float
                     :initial-element 1d0))

(defparameter *arr2*
  (make-array 100000 :element-type 'double-float
                     :initial-element 0d0))

(defun spec-from-source (&aux (arr1 *arr1*) (arr2 *arr2*))
  (declare (type double-array arr1 arr2)
           (optimize (speed 3) (debug 0) (safety 0)))
  (let ((start1 20000) (start2 0) (replace-len #.(- 90000 20000)))
    (do ((i start1 (1+ i))
         (j start2 (1+ j))
         (end (+ start1 replace-len)))
        ((>= i end))
      (declare (optimize (sb-c::insert-array-bounds-checks 0)))
      (setf (aref arr1 i) (aref arr2 j)))))

测试如下:

替换

(time
 (dotimes (i 2000)
   (spec-replace)))

Evaluation took:
  0.201 seconds of real time
  0.200000 seconds of total run time (0.200000 user, 0.000000 system)
  99.50% CPU
  481,862,984 processor cycles
  0 bytes consed

循环

(time
 (dotimes (i 2000)
   (spec-loop)))

Evaluation took:
  0.130 seconds of real time
  0.132000 seconds of total run time (0.132000 user, 0.000000 system)
  101.54% CPU
  312,538,278 processor cycles
  0 bytes consed

正如阅读源代码所预期的那样

(time
 (dotimes (i 2000)
   (spec-from-source)))

Evaluation took:
  0.097 seconds of real time
  0.096000 seconds of total run time (0.096000 user, 0.000000 system)
  98.97% CPU
  231,766,644 processor cycles
  0 bytes consed

根据性能的不同，我看起来不像您编写的代码那样扩展为上面的代码。 SPEC-REPLACE 的反汇编显示

; C2B:       E828AAB6FD       CALL #x2036D658                 ; #<FDEFN SB-KERNEL:UB64-BASH-COPY>

它调用一个所谓的bash-copy函数，这是!make-replace-transform中COND中的第一个情况。经过一点调查，!define-byte-bashers 和 frob-bash-transform 成为值得研究的有趣函数。看起来像 unary-bash-name 引用的函数正在做大量工作来寻找如何为不同情况编写专门的代码。

我不熟悉该代码，但至少源代码是可用的；然而，它需要更多的时间来理解它是如何工作的，以及编译器在优化时如何选择一个路径或另一个路径。
这可能是向 SBCL 开发人员询问的好问题(sbcl-help 邮件列表)。
请注意，如果您需要大量优化这种情况，DO 方法是这里最快的方法。看起来“byte-basher”系列函数可能更加专业，但我对此不确定。如果您了解更多相关信息，请考虑添加答案。

关于arrays - `replace` 与普通 `loop` 在 SBCL 中复制大型数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56197795/

文章推荐： sql - 查找每行的最大列名称和值

文章推荐： python - 将天数添加到数据框中的日期

文章推荐： emacs - 如何在 Emacs 中找到系统的显示尺寸？

文章推荐： python - 带有 pandas 的多个堆叠条形图

loops - 好奇 Haskell 中如何评估 "loop = loop"
我认为这样的表达式会导致 Haskell 永远评估。但是 GHCi 和编译程序中的行为让我感到惊讶。例如，在 GHCi 中，这些表达式一直阻塞到 I Control+C ，但不消耗 CPU。看起来像
for-loop - 尽管我们已经有了 "for loop"或反之亦然，为什么还要创建 "while loop"？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
C# If loop within a for loop within a if loop
如果可以的话，我想减少这段代码: class Alarm { internal static void isGreaterThanOrBelowValue(int min, int max,
loops - 批处理 - "for/F loop"内部 "for/L loop"
我有以下问题: 我想创建一个批处理文件，循环访问一定数量的 IP 地址，以停止远程 PC 上的某个服务。因为停止过程需要一些时间，所以我需要第二个循环来查询服务的状态并等待，直到服务达到“已停止”状
loops - loop{} 运行了两次？
我已经完整地编写了“The Rust Programming Language”在线书籍中的程序，chapter 2 .我还进一步开发了它:通过添加一个简单的问题/响应，用户可以通过输入“y”再次玩游
loops - clojure for loop，将值存储在集合或映射中
这个人已经困扰了我一阵子了，我们应该如何在集合中存储值或在for循环中映射？ (let [s #{}] (for [ i (range 10) j (range 1
loops - x86 LOOP 指令究竟是如何工作的？
mov ecx, 16 looptop: . . . loop looptop 这个循环会执行多少次？如果 ecx
for-loop - XTend For-Loop 支持和添加范围支持
我似乎无法找到一种在 Xtend 中表达以下内容而不诉诸 while 循环的好方法: for(int i = 0; i range(int stop) { range(0, stop) }
loops - x86 程序集 : Loops!
好吧，长话短说，我正在学习汇编，我正在尝试循环打印出 ascii 字符“0”-“9”。因此，我完成了我在示例中看到的所有基础知识，例如使用 pushad 和 popad 保存寄存器状态，分配堆栈空间，
javascript - 有没有办法制作 "for loop of for loops"？
我正在尝试为自己编写一个扑克计算器，我有一个 5 级深的 for 循环。为此，我将 for 循环一个接一个地嵌套。我正在寻找一种方法来简单地使用一个循环(或函数)，它可以告诉我想去多少层。对于这个例
python - for loop in for loop 的更快替代方案
我有一本包含约 150,000 个键的字典。没有重复的键。每个 key 的长度为 127 个字符，每个 key 在 1-11 个位置上有所不同(大多数差异发生在 key 的末尾)。每个键的值是一个唯一
loops - 在 (LOOP FOR A ...) 的宏扩展期间出错
我正在尝试编写一个 Lisp 程序来实现与点和方 block 非常相似的棋盘游戏，这意味着我有两个玩家相互竞争但可以连续移动。我正在尝试实现最简单的 minimax 算法来实现这一点，没有 alpha
算法时间复杂度分析(for loop with inner while loop)
下面是我实现的代码的简要说明。 for 循环的复杂度应该是 O(n)。我只是无法弄清楚内部 while 循环的时间复杂度。 int x,n; // Inputted by the user.
loops - "Infinite loop"导致无法访问的代码
我目前正在尝试使用 html 分词器 https://godoc.org/golang.org/x/net/html . 所以我想做的是:从 url 获取所有链接，如果 url 包含特定字符串 ->
shell 脚本 : for-loop within while loop
我有 32 个文件(以相同的模式命名，唯一的区别是下面写的 $sample 编号)我想分成 4 个文件夹。我正在尝试使用以下脚本来完成这项工作，但该脚本无法正常工作，有人可以帮我使用以下 shell
loops - 动态 WHERE 子句 IN LOOP AT 语句
我必须根据 where 条件在我的内部表上做一个循环，但根据我的程序模式，必须在运行时修改 where 条件的字段。我知道在 SELECT 语句中这是可能的，但是当我在循环中执行此操作时出现错误。
KDB/Q : how to loop without loops?
我正在学习关于kdb数据库的q。我担心q中没有循环。我需要写一个算法，用像C这样的冗长程序在几个嵌套的for循环中编写。但是在q中，我被无法循环的事实所困扰。仅举一个具体的例子(很多)，我有一个简
haskell - 循环 StateT : Why this loop doesn't loop
我不明白为什么这段代码只循环一次然后退出？在 Ghci 中，我只能回答第一个循环，然后似乎变量 cont 设置为 false 并且我没有提示回答。结果是: *Main> testLoop1 td1
for-loop - 在 Racket "for loop"中做两件事
我正在 Racket 中运行 for 循环，对于列表中的每个对象，我想执行两件事:如果该项目满足条件，(1) 将其附加到我的新列表中，(2) 然后打印列表。但我不知道如何在 Racket 中执行此操作
for-loop - Matlab并行工具箱: stacking loops in parfor
我正在尝试使用 matlab 并行包中的 parfor 循环。我和这个人有类似的问题:MATLAB parfor slicing issue? 。输出矩阵似乎没有被识别为切片变量。在我的具体情况下，我

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

arrays - `replace` 与普通 `loop` 在 SBCL 中复制大型数组

问题描述

比较`replace`与`loop`的性能

问题

替换

循环

正如阅读源代码所预期的那样

首页

博学

6Ren·AI

商城

arrays - `replace` 与普通 `loop` 在 SBCL 中复制大型数组

问题描述

比较replace与loop的性能

问题

替换

循环

正如阅读源代码所预期的那样

比较`replace`与`loop`的性能