gpt4 book ai didi

java - 为什么编译的 Java 类文件比 C 编译的文件小?

转载 作者:搜寻专家 更新时间:2023-10-30 21:01:46 25 4
gpt4 key购买 nike

我想知道为什么我们从编译打印“Hello, World!”的 .c 文件中得到的 .o 文件。比同样打印“Hello, World!”的 Java .class 文件大吗?

最佳答案

Java 使用 Bytecode 是平台无关和“预编译”的,但字节码是为解释器使用的,并且足够紧凑,所以它与编译后的 C 程序中看到的机器码不同。简单看一下Java编译的全过程:

Java program  
-> Bytecode
-> High-level Intermediate Representation (HIR)
-> Middle-level Intermediate Representation (MIR)
-> Low-level Intermediate Representation (LIR)
-> Register allocation
-> EMIT (Machine Code)

这是 Java 程序到机器代码转换的链。如您所见,字节码与机器码相去甚远。我在 Internet 上找不到好东西来向您展示真实程序的这条路(示例),我找到的所有内容都是 this presentation ,在这里您可以看到每个步骤如何更改代码表示。我希望它能回答您编译的 C 程序和 Java 字节码如何以及为什么不同。

更新:“字节码”之后的所有步骤都由 JVM 在运行时完成,具体取决于它编译该代码的决定(那是另一回事......JVM 在字节码解释和编译为 native 平台相关代码之间取得平衡)

终于找到了很好的例子,取自Linear Scan Register Allocation for the Java HotSpot™ Client Compiler (顺便说一下,阅读以了解 JVM 内部发生的事情)。假设我们有 java 程序:

public static void fibonacci() {
int lo = 0;
int hi = 1;
while (hi < 10000) {
hi = hi + lo;
lo = hi - lo;
print(lo);
}
}

那么它的字节码是:

0:  iconst_0
1: istore_0 // lo = 0
2: iconst_1
3: istore_1 // hi = 1
4: iload_1
5: sipush 10000
8: if_icmpge 26 // while (hi < 10000)
11: iload_1
12: iload_0
13: iadd
14: istore_1 // hi = hi + lo
15: iload_1
16: iload_0
17: isub
18: istore_0 // lo = hi - lo
19: iload_0
20: invokestatic #12 // print(lo)
23: goto 4 // end of while-loop
26: return

每个命令占用 1 个字节(JVM 支持 256 个命令,但实际上少于这个数量)+ 参数。总共需要 27 个字节。我省略了所有阶段,这里准备执行机器码:

00000000: mov dword ptr [esp-3000h], eax
00000007: push ebp
00000008: mov ebp, esp
0000000a: sub esp, 18h
0000000d: mov esi, 1h
00000012: mov edi, 0h
00000017: nop
00000018: cmp esi, 2710h
0000001e: jge 00000049
00000024: add esi, edi
00000026: mov ebx, esi
00000028: sub ebx, edi
0000002a: mov dword ptr [esp], ebx
0000002d: mov dword ptr [ebp-8h], ebx
00000030: mov dword ptr [ebp-4h], esi
00000033: call 00a50d40
00000038: mov esi, dword ptr [ebp-4h]
0000003b: mov edi, dword ptr [ebp-8h]
0000003e: test dword ptr [370000h], eax
00000044: jmp 00000018
00000049: mov esp, ebp
0000004b: pop ebp
0000004c: test dword ptr [370000h], eax
00000052: ret

结果需要 83(十六进制 52 + 1 字节)字节。

附言。我没有考虑链接(其他人提到过),以及 compiledc 和字节码文件头(可能它们也不同;我不知道 c 是怎么回事,但是在字节码文件中,所有字符串都被移动到特殊的 header 池,在程序中使用它在 header 中的“位置”等)

更新 2:可能值得一提的是,java 使用堆栈(istore/iload 命令),尽管基于 x86 和大多数其他平台的机器代码使用寄存器。如您所见,机器代码“充满”寄存器,与更简单的基于堆栈的字节码相比,这为编译后的程序提供了额外的大小。

关于java - 为什么编译的 Java 类文件比 C 编译的文件小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4838221/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com