Java 自动矢量化示例-6ren

Java 自动矢量化示例

转载作者：行者123 更新时间：2023-12-01 12:00:58

28

4

我试图找到一个简洁的例子，显示 auto vectorization在 x86-64 系统上的 java 中。

我已经使用 y[i] = y[i] + x[i] 实现了以下代码在 for 循环中。这段代码可以从自动向量化中受益，所以我认为 java 应该在运行时使用 SSE 或 AVX 指令编译它以加快速度。
但是，我在生成的 native 机器代码中找不到矢量化指令。
VecOpMicroBenchmark.java应该受益于自动矢量化:

    /**
     * Run with this command to show native assembly:<br/>
     * java -XX:+UnlockDiagnosticVMOptions
     * -XX:CompileCommand=print,VecOpMicroBenchmark.profile VecOpMicroBenchmark
     */
    public class VecOpMicroBenchmark {

        private static final int LENGTH = 1024;

        private static long profile(float[] x, float[] y) {
            long t = System.nanoTime();

            for (int i = 0; i < LENGTH; i++) {
                y[i] = y[i] + x[i]; // line 14
            }

            t = System.nanoTime() - t;

            return t;
        }

        public static void main(String[] args) throws Exception {
            float[] x = new float[LENGTH];
            float[] y = new float[LENGTH];

            // to let the JIT compiler do its work, repeatedly invoke
            // the method under test and then do a little nap
            long minDuration = Long.MAX_VALUE;
            for (int i = 0; i < 1000; i++) {
                long duration = profile(x, y);
                minDuration = Math.min(minDuration, duration);
            }
            Thread.sleep(10);

            System.out.println("\n\nduration: " + minDuration + "ns");
        }
    }

为了确定它是否被矢量化，我做了以下事情:

打开 eclipse 并创建上述文件

右键单击该文件，然后从下拉菜单中选择 运行 > Java 应用程序 (暂时忽略输出)

在eclipse菜单中，点击运行 > 运行配置...

在打开的窗口中，查找 VecOpMicroBenchmark ，单击它并选择 参数选项卡

在参数选项卡中，在 下虚拟机参数:输入:-XX:+UnlockDiagnosticVMOptions -XX:CompileCommand=print,VecOpMicroBenchmark.profile

获取 libhsdis 并复制(可能重命名)文件 hsdis-amd64.so (.dll for windows) 到 java/lib 目录。就我而言，这是 /usr/lib/jvm/java-11-openjdk-amd64/lib .

运行 VecOpMicroBenchmark 再次

它现在应该向控制台打印大量信息，其中一部分是由 JIT 编译器生成的反汇编的本地机器代码。如果您看到很多消息，但没有像 mov 这样的组装说明, push , add等，那么也许您可以在某处找到以下消息: Could not load hsdis-amd64.so; library not loadable; PrintAssembly is disabled这意味着java找不到文件 hsdis-amd64.so - 它不在正确的目录中或它没有正确的名称。
hsdis-amd64.so是显示生成的本地机器代码所需的反汇编程序。 JIT编译器将java字节码编译成本地机器码后， hsdis-amd64.so用于反汇编 native 机器代码以使其可读。您可以在 How to see JIT-compiled code in JVM? 找到有关如何获取/安装它的更多信息。 .

在输出中找到汇编指令后，我浏览了它(太多了，无法在此处发布所有内容)并查找 line 14 .我找到了这个:

0x00007fac90ee9859: nopl    0x0(%rax)
0x00007fac90ee9860: cmp     0xc(%rdx),%esi    ; implicit exception: dispatches to 0x00007fac90ee997f
0x00007fac90ee9863: jnb     0x7fac90ee9989
0x00007fac90ee9869: movsxd  %esi,%rbx
0x00007fac90ee986c: vmovss  0x10(%rdx,%rbx,4),%xmm0  ;*faload {reexecute=0 rethrow=0 return_oop=0}
                                            ; - VecOpMicroBenchmark::profile@16 (line 14)

0x00007fac90ee9872: cmp     0xc(%rdi),%esi    ; implicit exception: dispatches to 0x00007fac90ee9997
0x00007fac90ee9875: jnb     0x7fac90ee99a1
0x00007fac90ee987b: movsxd  %esi,%rbx
0x00007fac90ee987e: vmovss  0x10(%rdi,%rbx,4),%xmm1  ;*faload {reexecute=0 rethrow=0 return_oop=0}
                                            ; - VecOpMicroBenchmark::profile@20 (line 14)

0x00007fac90ee9884: vaddss  %xmm1,%xmm0,%xmm0
0x00007fac90ee9888: movsxd  %esi,%rbx
0x00007fac90ee988b: vmovss  %xmm0,0x10(%rdx,%rbx,4)  ;*fastore {reexecute=0 rethrow=0 return_oop=0}
                                            ; - VecOpMicroBenchmark::profile@22 (line 14)

所以它使用了 AVX 指令 vaddss .但是，如果我在这里是正确的， vaddss方法
添加标量单精度浮点值，这只会将一个浮点值添加到另一个浮点值(此处，标量仅表示 1，而此处单表示 32 位，即 float 而不是 double)。
我在这里期望的是 vaddps ，这意味着添加打包的单精度浮点值，这是一条真正的 SIMD 指令(SIMD = 单指令，多数据 = 向量化指令)。这里，packed 意味着多个浮点数打包在一个寄存器中。

关于 ..ss 和 ..ps，见 http://www.songho.ca/misc/sse/sse.html :

SSE defines two types of operations; scalar and packed. Scalar operation only operates on the least-significant data element (bit 0~31), and packed operation computes all four elements in parallel. SSE instructions have a suffix -ss for scalar operations (Single Scalar) and -ps for packed operations (Parallel Scalar).

问题:
我的 java 示例是否不正确，或者为什么输出中没有 SIMD 指令？

最佳答案

在 main()方法，放入 i < 1000000而不仅仅是 i < 1000 .然后 JIT 还生成如下 AVX vector 指令，代码运行速度更快:

0x00007f20c83da588: vmovdqu 0x10(%rbx,%r11,4),%ymm0
0x00007f20c83da58f: vaddps  0x10(%r13,%r11,4),%ymm0,%ymm0
0x00007f20c83da596: vmovdqu %ymm0,0x10(%rbx,%r11,4)  ;*fastore {reexecute=0 rethrow=0 return_oop=0}
                                            ; - VecOpMicroBenchmark::profile@22 (line 14)

问题中的代码实际上可以由 JIT 编译器使用自动向量化进行优化。但是，正如 Peter Cordes 在评论中指出的那样，JIT 需要相当多的处理，因此不太愿意决定它应该完全优化某些代码。
解决方法很简单，就是在程序的一次执行过程中更频繁地执行代码，不只是 1000 次，而是 100000 次或一百万次。
执行 profile() 时多次这样的方法，JIT编译器确信代码非常重要，整体运行时将受益于全面优化，因此再次优化代码，然后它也使用真 vector 指令，如 vaddps .

更多详情请见 Auto Vectorization in Java

关于Java 自动矢量化示例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59725341/

28

4

0

文章推荐： apache - 如果找不到页面，.htaccess 301 重定向到主页

文章推荐： MSBUILD 配置 : Copy output to staging area

文章推荐： wpf - 移动焦点以响应 XAML 中的键盘事件

文章推荐： http-headers - 来自某些客户端的 HTTP header 随机替换了字符

string - 列表[字符串] -> 矢量[矢量[字符]]
我正在尝试将字符串列表转换为字符向量的向量: import collection.breakOut def stringsToCharVectors(xs: List[String]) = x
python - Pytorch:如何从 2D 矢量/图像预测 1D 矢量？
我正在尝试使用 Pytorch 通过 2D 向量(嘈杂语音帧序列)的回归来预测 1D 向量(干净语音数据帧) data) - 之前已经完成过。帧序列为帧提供时间上下文，以更准确地预测干净帧。这些向量可
c# - 获取错误 "Operator ' + =' is ambiguous on operands of type ' 矢量 3' and ' 矢量 2'"
在尝试构建时，我收到此错误: Operator '+=' is ambiguous on operands of type 'Vector3' and 'Vector2' 这是问题出处的脚本代码: u
R圆形阵列/矢量
是否存在实现 FIFO 意义上的循环数组或向量的 R 包？假设我们有这个数组: 2 4 7 1 当在位置 1 插入一个新的观察值(比如 3)时，我希望第 n 个元素被第 n-1 个元素替换: 3 2
c# - 矢量/角度数学
我在游戏中有两个对象，为此可以将其视为 2d 平面上的点，但我使用 Vector3s，因为游戏本身是 3d。我有一个游戏相机，我想将其与两个物体垂直(也在平面上)对齐，以便它们都在相机的视野中。由于
python - 采样音频不保留波(矢量)!
我做了一个Telegram robot ，它的工作之一是从音频文件创建样本。现在对于发送给它的大多数音频，样本都非常好；像这样: 但是，对于一些音频，样本看起来有点奇怪: 如您所见，此文件中的波形未显
JavaScript + JQuery 矢量 map
由于对 JavaScript 非常陌生，我在使用 JQuery VectorMaps 时遇到了以下问题: 当我用这种语法突出显示一个国家时，一切都很完美: jQuery('#vmap').vector
javascript - ChartJS 矢量 map
我正在使用 ChartJS 在我的网站中包含一些 map ，但 ChartJS 库没有我想要的 map 。我想知道这种类型的矢量 map 是否很容易在网上免费找到，还是必须从头开始构建？ Chart
vector - Clojure 列表 -> 矢量
我需要创建一个函数。在此范围内，我需要发生以下事情: List 1: '(a 5 6) List 2: '(c 8 10) List 3: '(d 4 9) 以上是列表。我需要忽略每个列表的第一列(这
math - 计算垂直于由点和真北航向描述的平面的 3d 矢量
我在地球表面有一个点，我正在将其从地球中心转换为向量。我有一个以度数表示的真北航向，描述了该点将在地球表面行进的路径。我需要计算一个向量，该向量垂直于该点沿地球表面的路径所创建的平面。我尝试
javascript - 矢量 map 中不同端口的不同样式
大家好，这是我的 JavaScript 代码，用于为矢量 map 制作 ip 标记以显示在线 ip.. 所有 ips 都有 3 个不同的端口，例如:ip1:1020 或 ip2:5050 或 ip3:
javascript - 相机 lookAt 矢量
我正在使用 Three.js 透视相机，我需要了解相机所注视的点。如何使用相机的矩阵/旋转向量计算它？最佳答案相机向下看它的内部负 z 轴。所以选择相机负 z 轴上的任意点，如下所示: var
ios - Scenekit - 矢量/切线置换贴图
重要提示:请注意这个问题是关于 VECTOR map 的。不是高度图。我正在尝试在 Scenekit 中实现 Vector 位移，如 apple 演示文稿中所述: https://www.youtu
python - 是否可以更新 Doc2Vec 矢量？
我正在处理一个稳定增长的语料库。我使用用 Python 实现的 Doc2Vec 来训练我的文档向量。是否可以更新文档向量？我想使用文档向量进行文档推荐。最佳答案单个向量可以更新，但是 gens
matlab - 衡量两个不同(矢量)信号的相似度
我正在努力寻找一种比较(测量)两个不同信号之间相似性的好方法。我不想找出一个信号到另一个信号的时间延迟，但我想看看它们之间有何相似之处。例如，我有以下两个信号，比如说 s1 ans s2。这两个信号看
python - 叠加在图上的 Quiver 矢量
我想绘制 y 与 x 线，然后在它上面我想绘制向量。我可以使用 matplotlib 的 plot 和 quiver 函数来做到这一点。但是，矢量将始终绘制在线的后面，而不是在线的顶部。也就是说，线将
快速矢量-矢量 (a * a^H) 乘法的算法？
包含复数的向量 a 的大小为 N×1。任务是找到乘法a * a^HA (N-by-N) >，其中 H 是 Hermitian 算子(共轭转置)，因此矩阵 A 是 Hermitian。有没有比 O(N
android - KSOAP2 处理复杂响应(矢量)
三天来，我一直在努力从我的响应中获取复杂类型(列表)，但总是收到 ClassCastException D/SOAPEnvelope(1552): Error: java.lang.ClassCast
android osmdroid 矢量 map
在我的 android 项目中，我想要离线 map 。使用图 block ，我的 map 占用 500 MB 的空间，我还想在 map 上离线搜索地址。我认为减小尺寸并使搜索成为可能的唯一方法是矢量
Android Compose - 如何平铺/重复位图/矢量？
什么是 Android Compose 方法来平铺图像以用小图案填充我的背景？没有旋转的位图的天真方法可能是这样的: @Composable fun TileImage() { val pa

首页

博学

6Ren·AI

商城

Java 自动矢量化示例