assembly - 为 X86 编译时如何防止函数对齐到 16 字节边界？-6ren

assembly - 为 X86 编译时如何防止函数对齐到 16 字节边界？

转载作者：行者123 更新时间：2023-11-29 07:53:11

27

4

我在类似嵌入式的环境中工作，其中每个字节都非常宝贵，比未对齐访问的额外周期更重要。我有一些来自操作系统开发示例的简单 Rust 代码:

#![feature(lang_items)]
#![no_std]
extern crate rlibc;
#[no_mangle]
pub extern fn rust_main() {

    // ATTENTION: we have a very small stack and no guard page

    let hello = b"Hello World!";
    let color_byte = 0x1f; // white foreground, blue background

    let mut hello_colored = [color_byte; 24];
    for (i, char_byte) in hello.into_iter().enumerate() {
        hello_colored[i*2] = *char_byte;
    }

    // write `Hello World!` to the center of the VGA text buffer
    let buffer_ptr = (0xb8000 + 1988) as *mut _;
    unsafe { *buffer_ptr = hello_colored };

    loop{}

}

#[lang = "eh_personality"] extern fn eh_personality() {}
#[lang = "panic_fmt"] #[no_mangle] pub extern fn panic_fmt() -> ! {loop{}}

我也使用这个链接描述文件:

OUTPUT_FORMAT("binary")
ENTRY(rust_main)
phys = 0x0000;
SECTIONS
{
  .text phys : AT(phys) {
    code = .;
    *(.text.start);
    *(.text*)
    *(.rodata)
    . = ALIGN(4);
  }
  __text_end=.;
  .data : AT(phys + (data - code))
  {
    data = .;
    *(.data)
    . = ALIGN(4);
  }
  __data_end=.;
  .bss : AT(phys + (bss - code))
  {
    bss = .;
    *(.bss)
    . = ALIGN(4);
  }
  __binary_end = .;
}

我使用 opt-level: 3 和 LTO 优化它，使用 i586 目标编译器和 GNU ld 链接器，包括链接器命令中的 -O3。我还在链接器中尝试了 opt-level: z 和耦合的 -Os ，但这导致代码更大(它没有展开循环) .就目前而言，opt-level: 3 的大小似乎相当合理。

有相当多的字节似乎浪费在将函数对齐到某个边界上。在展开的循环之后，插入了 7 个 nop 指令，然后出现了预期的无限循环。在此之后，似乎还有另一个无限循环，其前面有 7 个 16 位覆盖 nop 指令(即 xchg ax,ax 而不是 xchg eax， eax).这在 196 字节的平面二进制文件中总共浪费了大约 26 个字节。

优化器到底在做什么？
我有哪些选项可以禁用它？
为什么二进制文件中包含无法访问的代码？

下面是完整的 assembly list :

   0:   c6 05 c4 87 0b 00 48    movb   $0x48,0xb87c4
   7:   c6 05 c5 87 0b 00 1f    movb   $0x1f,0xb87c5
   e:   c6 05 c6 87 0b 00 65    movb   $0x65,0xb87c6
  15:   c6 05 c7 87 0b 00 1f    movb   $0x1f,0xb87c7
  1c:   c6 05 c8 87 0b 00 6c    movb   $0x6c,0xb87c8
  23:   c6 05 c9 87 0b 00 1f    movb   $0x1f,0xb87c9
  2a:   c6 05 ca 87 0b 00 6c    movb   $0x6c,0xb87ca
  31:   c6 05 cb 87 0b 00 1f    movb   $0x1f,0xb87cb
  38:   c6 05 cc 87 0b 00 6f    movb   $0x6f,0xb87cc
  3f:   c6 05 cd 87 0b 00 1f    movb   $0x1f,0xb87cd
  46:   c6 05 ce 87 0b 00 20    movb   $0x20,0xb87ce
  4d:   c6 05 cf 87 0b 00 1f    movb   $0x1f,0xb87cf
  54:   c6 05 d0 87 0b 00 57    movb   $0x57,0xb87d0
  5b:   c6 05 d1 87 0b 00 1f    movb   $0x1f,0xb87d1
  62:   c6 05 d2 87 0b 00 6f    movb   $0x6f,0xb87d2
  69:   c6 05 d3 87 0b 00 1f    movb   $0x1f,0xb87d3
  70:   c6 05 d4 87 0b 00 72    movb   $0x72,0xb87d4
  77:   c6 05 d5 87 0b 00 1f    movb   $0x1f,0xb87d5
  7e:   c6 05 d6 87 0b 00 6c    movb   $0x6c,0xb87d6
  85:   c6 05 d7 87 0b 00 1f    movb   $0x1f,0xb87d7
  8c:   c6 05 d8 87 0b 00 64    movb   $0x64,0xb87d8
  93:   c6 05 d9 87 0b 00 1f    movb   $0x1f,0xb87d9
  9a:   c6 05 da 87 0b 00 21    movb   $0x21,0xb87da
  a1:   c6 05 db 87 0b 00 1f    movb   $0x1f,0xb87db
  a8:   90                      nop
  a9:   90                      nop
  aa:   90                      nop
  ab:   90                      nop
  ac:   90                      nop
  ad:   90                      nop
  ae:   90                      nop
  af:   90                      nop
  b0:   eb fe                   jmp    0xb0
  b2:   66 90                   xchg   %ax,%ax
  b4:   66 90                   xchg   %ax,%ax
  b6:   66 90                   xchg   %ax,%ax
  b8:   66 90                   xchg   %ax,%ax
  ba:   66 90                   xchg   %ax,%ax
  bc:   66 90                   xchg   %ax,%ax
  be:   66 90                   xchg   %ax,%ax
  c0:   eb fe                   jmp    0xc0
  c2:   66 90                   xchg   %ax,%ax

最佳答案

作为Ross states ，将函数和分支点对齐到 16 字节是英特尔推荐的常见 x86 优化，尽管它有时效率较低，例如您的情况。对于编译器来说，以最佳方式决定是否对齐是一个难题，我相信 LLVM 只是选择始终对齐。 See more info on Performance optimisations of x86-64 assembly - Alignment and branch prediction .

作为red75prime's comment hints (但没有解释)，LLVM 使用 align-all-blocks 的值作为分支点的字节对齐，因此将其设置为 1 将禁用对齐。请注意，这适用于全局，建议使用比较基准。

关于assembly - 为 X86 编译时如何防止函数对齐到 16 字节边界？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45135949/

27

4

0

文章推荐： java - Cloudbees 构建错误

文章推荐： mysql - 从 2 个 Mysql 表中为每个问题选择 4 个答案

文章推荐： java - Java 中使用的 Heron 公式，但值错误

文章推荐： php - 过滤结果当日期为最大时

html - 对齐/对齐 li 网格元素
我希望能够像在 jsFiddle 中那样将元素列表对齐到右侧的复选框。这是如何做到这一点的最佳实践？传统上我从来没有 float 过相互嵌套的元素，所以我想确定这是否是解决此问题的正确方法。代码(h
assembly - MIPS assembly 对齐对齐 n
指令.align n是什么意思在数组中做什么？更具体地说，假设我有以下部分代码: array: .align 2 .space 800 它的重要性是什么，为什么不跳过它并使用
c - 强制 2 函数对齐的幂 s.t 对齐 % 一些其他值 == 对齐
基本上我正在寻找一种强制特定相对对齐的方法即我想保证其他一些值(value) m s.t m > n alignment_of(foo) % 2^m == 2^n IE: .align 2^m; .
多维数组结构的C++对齐
在我的代码中，我必须考虑一个数组数组，其中内部数组具有固定维度。为了使用 STL 算法，将数据实际存储为数组的数组很有用，但我还需要将该数据传递给 C 库，该库采用扁平化的 C 样式数组。如果能够以
BlackBerry HorizontalFieldManager 对齐
横向上，我想显示两个位图，并在它们之间显示一个标签字段。代码看起来很简单，但所有字段都添加在屏幕左侧。 HorizontalFieldManager hfm = new HorizontalFiel
轴标签与表达式的 R 对齐
我想绘制一个变量名称及其符号。因为某些变量的名称很长，所以我试图将换行符与轴标签混合使用。这会导致对齐中发生有趣的事情: par(mar=c(1,12,1,1)) plot( y=1:6, 1:6,
r - 将左两行图例标题与expression()对齐
使用这个脚本 df <- data.frame(x = 1:5, y = 1:5, color = letters[1:5]) ggplot(df, aes(x, y, fill = color))
matlab - 在matlab中从结构创建表 - 对齐
我有一个带有标量字段的结构，比如妈妈，我想在屏幕上对齐的列中显示结构的值，可能还有一些标题。这是一个最小的工作示例: mom.a = 1; mom.b = 2; mom.veryLongName =
ios 自动布局视觉格式 - 对齐
在 iOS6 中，我使用自动布局。我有 2 个以编程方式创建的 View v1 和 v2。 v2 作为 subview 添加到 v1 v1 的约束已通过编程方式创建(此处未显示)。我希望 v1 和
C++ 对齐 new[]
概述浏览时operator new, operator new[] - cppreference.com ，似乎我们有许多选项来分配具有特定对齐要求的对象数组。但是，没有指定如何使用它们，而且我似乎
flutter - 对两个文本小部件仅使用一次“对齐”
Widget _createProfileContainer() { return new Container( height: 64.0, child: ne
javascript - Bootstrap 对齐
我正在使用 Bootstrap 和语义 UI 的组合来设计和对齐我的网页。目前，我在将页面 api map 和博客文章在整个页面上对齐时遇到问题，而不是像图像所示那样堆叠在一起。这是我的底层代码，
Java GUI 对齐
所以我已经添加了标签和所有内容，但我仍然在格式化和对齐所有内容时遇到问题。计算按钮显然应该居中。我知道使用 gridbag 将框架分割成坐标系，当一列大于其他列时，它会调整其他列并将其抛弃(对吗？)。
java - 对齐 JButton
我必须将程序上的按钮对齐到中间，我运行的当前代码但显示的按钮与程序一样大，我想要一个特定大小的中心按钮，这是我尝试过的 /** * Created by Timk9 on 11/04/2016.
VIM 格式化/对齐
我正在尝试将 VIM 作为我的 ruby/rails 编辑器。太胖了，我对它的功能印象深刻并且我能够安装以下插件以提供更好的 IDE 体验自动配对 Better-snipmate-snippe
c++ - 对齐/偏移结构的特定成员
在结构内对齐成员的最佳或常规方法是什么？添加虚拟数组是最佳解决方案吗？我有一个 double 的结构和 double 的三倍是吗？ struct particle{ double mass;
C++ iomanip 对齐
我正在尝试对齐我的输出，但由于某种原因我无法做到我多么想要它，这真的很令人沮丧。标题不会正确对齐。我不知道我是否正确使用了 setw()。 #include using std::cout; usi
android - 对齐 TextView
我正在开发一个 android 应用程序，其相对布局如下所示。这是应用程序在屏幕上的显示方式的 imgur 链接:http://imgur.com/c4rNJ .我希望“Text 1”出现在“a l
java - 对齐 JButton
我不确定为什么我不能在下面的代码中调整按钮的位置。我有几行设置了边界，但我一定遗漏了一些东西。 public DayGUI() { mainFrame = new JF
html - 对齐 iframe
我有一个 html 页面，我想在页面底部对齐一个 iframe，使 iframe 占据所有宽度，我无法在底部对齐 iframe。请找到底部的 iframe 标签页面。 The rest of th

首页

博学

6Ren·AI

商城

assembly - 为 X86 编译时如何防止函数对齐到 16 字节边界？