第 5 章

指令是 CPU 的语言

CPU 是一台极其强大但也极其"死板"的机器。你无法跟它说"帮我计算一下这个复杂的算法"——它根本听不懂。你只能用它能理解的方式跟它说话：指令。

每条指令都非常具体，非常原子化：把这个数字从内存搬到寄存器，把这两个数相加，如果这个条件成立就跳到那里执行……

但有意思的是，就是这些简单到极致的基本操作的组合，构建出了所有的软件：操作系统、游戏、人工智能。

Level 1：建立直觉

什么是指令集

每种 CPU 都有自己的指令集（Instruction Set Architecture，ISA）——一套它能理解和执行的命令列表。

指令集就是 CPU 的母语。

不同的 CPU 说不同的语言：

Intel/AMD 的 x86-64：PC 和服务器的主流
ARM：手机、平板、Apple Silicon
RISC-V：开源新秀，嵌入式和定制芯片
MIPS：路由器、老游戏机

这些"语言"之间互不兼容——为 x86 编写的程序不能直接在 ARM 上运行（就像英语文章不能直接被日语阅读一样）。但它们都能表达同样的计算逻辑，只是"说法"不同。

一条指令长什么样

一条指令在内存里就是一串二进制数字，CPU 读到它就知道要做什么。

以 x86-64 的一条加法指令为例：

机器码：  48 01 D8
汇编：    add rax, rbx
含义：    把 rbx 寄存器的值加到 rax 寄存器上

程序员通常不会直接写机器码（那串十六进制），而是写汇编语言——用人类可读的助记符（如 add、mov、jmp）来表示指令。汇编器再把汇编语言翻译成机器码。

还有更高级的：你写 Python 或 C++，编译器把你的代码翻译成汇编，再变成机器码。整个软件世界，底层都是这些指令在支撑。

指令的分类

CPU 的指令通常分为几大类：

1. 数据移动指令（把数据从一个地方搬到另一个地方）

mov rax, 42        ; 把常数 42 放入 rax 寄存器
mov rbx, [rsp]     ; 从栈顶读取数据到 rbx
mov [rdi], rax     ; 把 rax 的值写入 rdi 指向的内存地址

2. 算术/逻辑指令（计算）

add rax, rbx       ; rax = rax + rbx
sub rax, 1         ; rax = rax - 1
mul rcx            ; rax = rax × rcx（结果放在 rdx:rax）
and rax, 0xFF      ; rax = rax AND 0xFF（保留低8位）
shl rax, 3         ; rax = rax << 3（左移3位 = 乘以8）

3. 比较和跳转指令（控制流）

cmp rax, rbx       ; 比较 rax 和 rbx（结果影响标志寄存器）
je  label_equal    ; 如果相等，跳转到 label_equal
jl  label_less     ; 如果 rax < rbx，跳转到 label_less
jmp loop_start     ; 无条件跳转到 loop_start

4. 函数调用指令

call my_function   ; 调用函数（保存返回地址，跳转）
ret                ; 从函数返回（恢复返回地址，跳回）

5. 内存管理指令

push rax           ; 把 rax 压入栈（rsp -= 8，然后写入 rax）
pop  rbx           ; 从栈弹出到 rbx（读出后 rsp += 8）

这几十到几百条指令（不同架构数量不同），就是 CPU 的全部词汇表。

Level 2：原理剖析

x86 vs ARM vs RISC-V：哲学的分歧

不同指令集架构背后有不同的设计哲学，主要分为两大流派：

CISC（复杂指令集计算机）

代表：x86/x86-64（Intel、AMD）

设计思想：一条指令能做的事越多越好。x86 有数千条指令，很多指令非常"复杂"，一条指令可以完成多步操作：

; x86 的 REP MOVSD 指令：一条指令复制整块内存
; ECX = 要复制的双字数量, ESI = 源地址, EDI = 目标地址
rep movsd

历史原因：x86 诞生于 1970 年代，当时内存很小，程序要尽可能紧凑，复杂指令意味着用更少的指令完成任务。

RISC（精简指令集计算机）

代表：ARM、RISC-V、MIPS

设计思想：指令越简单越好，每条指令只做一件事，但可以执行得很快。

; ARM 的等效操作，需要多条指令
// 循环复制内存
loop:
  ldr w0, [x1], #4   ; 从源地址读取，自增
  str w0, [x2], #4   ; 写到目标地址，自增
  subs x3, x3, #1    ; 计数器减一
  bne loop            ; 不为零则继续循环

看起来 RISC 需要更多条指令？没错，但每条指令执行更快，而且规整的指令格式让流水线优化更容易。结果是：总体性能和功耗效率反而更好。

这也是为什么 ARM 统治了移动设备领域——更低的功耗，同等甚至更好的性能。

RISC-V：RISC 哲学的现代实现，开源免费，模块化设计（基础整数指令集只有 47 条，扩展模块按需添加）。

指令的编码：机器码的秘密

指令在内存里是一串位。这串位怎么编码信息？

以 RISC-V 的 32 位指令格式为例：

  31      25 24  20 19  15 14  12 11    7 6       0
  ┌─────────┬──────┬──────┬──────┬────────┬────────┐
  │  funct7  │ rs2  │ rs1  │funct3│   rd   │ opcode │
  └─────────┴──────┴──────┴──────┴────────┴────────┘
   7位        5位    5位    3位    5位       7位

解读：

opcode（7位）：指令类型（加法？加载？跳转？）
rd（5位）：目标寄存器编号（0-31，共32个寄存器）
funct3（3位）：操作功能码（比如区分加法和减法）
rs1（5位）：源寄存器 1
rs2（5位）：源寄存器 2
funct7（7位）：扩展功能码

一条 add x1, x2, x3（x1 = x2 + x3）的机器码：

funct7=0000000, rs2=x3=00011, rs1=x2=00010, funct3=000, rd=x1=00001, opcode=0110011
= 00000000001100010000000010110011
= 0x00310033

CPU 的指令解码器就是把这串位拆开，提取出每个字段，然后告诉各个执行单元该做什么。

指令指针和程序计数器

CPU 怎么知道下一条指令在哪里？

它有一个特殊的寄存器叫做程序计数器（Program Counter, PC），里面存的是当前正在执行的指令的内存地址。

正常执行时，每执行完一条指令，PC 自动增加（指向下一条指令的地址）。执行跳转指令时，PC 被设置为跳转目标地址。

这个机制赋予了 CPU 执行任何程序的能力：程序不过是一系列存在内存里的指令，PC 像一个阅读指针，顺序地指向每条指令。

内存地址   指令
0x1000     mov rax, 10   ; PC 初始指向这里
0x1003     mov rbx, 20   ; PC 执行完上一条后指向这里
0x1006     add rax, rbx  ; 继续...
0x1009     ret           ; 函数返回，PC 跳回调用处

特权级别：谁能执行哪些指令

不是所有程序都能执行所有指令。CPU 有**特权级别（Privilege Levels）**的概念：

Ring 0（内核模式）：操作系统核心可以执行所有指令，包括直接访问硬件
Ring 3（用户模式）：普通程序只能执行受限的指令集，不能直接操作硬件

这种隔离至关重要：如果任何程序都能直接操控硬件，一个恶意程序就能破坏整个系统。

当用户程序需要做特权操作（如写文件、创建网络连接），它必须通过**系统调用（Syscall）**请求操作系统代劳——相当于说"我需要特权，但我不配自己做，请操作系统大人出手"。

Level 3 · 规范怎么定义的（资深）

指令集架构的形式化规范

指令集架构（ISA）是硬件和软件之间的"契约"，有严格的形式化定义。x86-64 架构由 AMD 在 2000 年首次定义（AMD64 Architecture Programmer's Manual），后被 Intel 采纳（Intel 64 and IA-32 Architectures Software Developer's Manual，共 5000 多页）。手册精确定义了每条指令的操作码编码、操作数格式、标志位影响、异常条件和伪代码级行为描述。

ARM 架构参考手册（Arm Architecture Reference Manual，简称 Arm ARM）同样是形式化文档，最新的 ARMv9 手册使用 ASL（Architecture Specification Language）——一种专为描述指令语义设计的伪代码语言——来定义每条指令的精确行为。ASL 可以被自动转换为可执行的仿真器，确保规范的无歧义性。

RISC-V 规范由 RISC-V International 维护，其基础整数指令集（RV32I/RV64I）在 Volume 1（Unprivileged Specification）中定义，特权级指令在 Volume 2（Privileged Specification）中定义。RISC-V 的独特之处在于模块化设计：M（乘除法）、A（原子操作）、F/D（浮点）、V（向量）等扩展都是独立规范，芯片设计者可以按需选择实现。每个扩展都有形式化的操作语义，且经过 SAIL 形式化语言的机械验证。

Level 4 · 边界与陷阱（所有人）

陷阱 1：x86 指令长度可变，解码是性能瓶颈

x86-64 指令的长度从 1 字节到 15 字节不等，CPU 在取指阶段必须先弄清楚每条指令的边界在哪里，才能开始解码。这个"指令长度预解码"过程在现代 x86 CPU 中消耗了大量的晶体管面积和功耗。相比之下，ARM 和 RISC-V 的指令长度固定（32 位），解码器可以简单地每 4 字节切一刀。这就是为什么 Apple M 系列（ARM 架构）在同等性能下功耗远低于 Intel x86 CPU——不是因为 ARM 指令更强，而是解码更高效。

陷阱 2：未对齐指令访问可能触发异常

在 ARM 和 RISC-V 上，如果程序计数器（PC）指向一个非 4 字节对齐的地址，CPU 会触发对齐异常（Alignment Fault）。这在正常编译的代码中不会发生，但在手写汇编、JIT 编译器或二进制修补（binary patching）场景中是常见 bug。x86 更宽容——它允许指令从任意地址开始——但这种灵活性也被安全研究者利用：ROP（Return-Oriented Programming）攻击正是通过跳转到指令中间的字节来"发现"原本不存在的指令序列，绕过 DEP/NX 保护。

陷阱 3：特权指令在用户态执行会触发陷阱

ISA 将指令分为用户态指令和特权指令。HLT（停机）、WRMSR（写模型特定寄存器）、MOV CR3（切换页表）等是特权指令，只能在内核态（Ring 0）执行。用户态程序尝试执行这些指令会触发 #GP（General Protection Fault） 异常。虚拟化场景下，连内核态的某些特权指令也会被 VMM（虚拟机监控器）截获——这就是 VT-x 的 VMCS（Virtual Machine Control Structure）定义的"VM Exit"事件列表。误解特权级别是系统编程和虚拟化开发中的常见错误来源。

本章评分

4.9 / 5 (64 评分)

指令是 CPU 的语言

指令是 CPU 的语言

Level 1：建立直觉

什么是指令集

一条指令长什么样

指令的分类

Level 2：原理剖析

x86 vs ARM vs RISC-V：哲学的分歧

指令的编码：机器码的秘密

指令指针和程序计数器

特权级别：谁能执行哪些指令

Level 3 · 规范怎么定义的（资深）

指令集架构的形式化规范

Level 4 · 边界与陷阱（所有人）

陷阱 1：x86 指令长度可变，解码是性能瓶颈

陷阱 2：未对齐指令访问可能触发异常

陷阱 3：特权指令在用户态执行会触发陷阱

💬 留言讨论