第 13 章

网络层：Reactor 模型与请求处理全流程

第13章：网络层：Reactor 模型与请求处理全流程

导读：Kafka 的 Reactor 网络模型如何实现高并发请求处理？

本章核心问题：Kafka 的 Reactor 网络模型如何实现高并发请求处理？

读完本章你将理解：

三层网络架构：Acceptor/Processor/I/O Handler
Purgatory 延迟操作与 TimingWheel 时间轮
num.network.threads 与 num.io.threads 的调优
请求队列满时的背压传播

Level 1 · 你需要知道的（1-3年经验）

Kafka 的高并发处理能力，很大程度上来自其精心设计的网络层架构。理解这一架构不仅有助于参数调优，更能帮助你在遇到网络相关问题时迅速定位根因。本章从 Reactor 模式的本质讲起，逐层拆解 Kafka 的完整请求处理流水线。

为什么选择 Reactor 模式

传统线程模型的瓶颈

最直观的服务器设计是"一连接一线程"（Thread-per-Connection）模型：每当客户端建立新连接，服务器创建一个专属线程处理该连接的所有 I/O 和业务逻辑。

这个模型在连接数较少时运行良好，但在 Kafka 的场景下会遇到根本性障碍：

内存墙：一个 Java 线程默认栈大小 512KB~~1MB。1000 个连接意味着 500MB~~1GB 的栈内存，10000 个连接则需要 5~10GB——仅用于存储空闲线程的栈帧。

调度开销：操作系统内核需要在所有活跃线程间进行上下文切换。当大多数线程都在等待网络 I/O（而不是真正执行计算）时，CPU 把大量时间花在线程调度上，而非实际工作。

I/O 等待浪费：网络 I/O 是典型的等待密集型操作——发送请求、等待数据、接收响应。线程在等待期间什么都不做，却占用着内存和调度槽位。

测量数据显示：在 I/O 密集型服务中，线程实际执行有效计算的时间往往不足 5%，其余时间都在等待。

Reactor 模式：事件驱动的本质

Reactor 模式（也称 Event Loop 或 I/O 多路复用）的核心思想是用少数几个线程监控大量连接，只在连接有实际数据可处理时才投入计算资源。

其底层依赖操作系统提供的 I/O 多路复用接口：

Linux：epoll（O(1) 事件通知，支持数十万并发连接）
macOS/BSD：kqueue
Java 抽象层：java.nio.channels.Selector（底层调用 epoll/kqueue）

// Reactor 模式的概念性代码（非 Kafka 源码，用于说明原理）
Selector selector = Selector.open();
ServerSocketChannel serverChannel = ServerSocketChannel.open();
serverChannel.configureBlocking(false);
serverChannel.register(selector, SelectionKey.OP_ACCEPT);

while (true) {
    // 阻塞等待，直到有任何连接有事件发生
    int readyCount = selector.select(); // epoll_wait() 的 Java 封装

    Iterator<SelectionKey> keys = selector.selectedKeys().iterator();
    while (keys.hasNext()) {
        SelectionKey key = keys.next();
        keys.remove();

        if (key.isAcceptable()) {
            // 接受新连接，注册到 selector
            SocketChannel clientChannel = serverChannel.accept();
            clientChannel.configureBlocking(false);
            clientChannel.register(selector, SelectionKey.OP_READ);
        } else if (key.isReadable()) {
            // 有数据可读，读取并处理
            handleRead((SocketChannel) key.channel());
        }
        // 一个线程服务了所有连接！
    }
}

单个 Selector 可以轻松监控数千个连接，CPU 仅在有真实 I/O 事件时才工作，避免了线程切换开销。

Level 2 · 它是怎么运行的（3-5年经验）

Kafka 的三层网络架构

Kafka 的网络层实现了一个精心设计的三层 Reactor 变体，源码位于 kafka.network 包：

客户端连接
     │
     ▼
┌─────────────────┐
│  Acceptor 线程   │  (1个) 接受新 TCP 连接
└────────┬────────┘
         │ 轮询分配新连接
    ┌────┴────┐
    ▼    ▼    ▼
┌───┐ ┌───┐ ┌───┐
│P0 │ │P1 │ │P2 │   Processor 线程 (N个，默认3个)
└───┘ └───┘ └───┘   每个持有自己的 Selector
    │         │      负责读请求、写响应
    └────┬────┘
         │ 请求入队
         ▼
┌─────────────────┐
│  RequestChannel  │  有界阻塞队列 (请求队列)
└────────┬────────┘
    ┌────┴─────┐
    ▼    ▼    ▼  ...
┌───┐ ┌───┐ ┌───┐
│H0 │ │H1 │ │H2 │   I/O Handler 线程 (M个，默认8个)
└───┘ └───┘ └───┘   执行实际业务逻辑

第一层：Acceptor 线程

Acceptor 线程（kafka.network.Acceptor）是整个网络层的入口，职责极其单一：

监听配置的端口（listeners 配置项，如 PLAINTEXT://0.0.0.0:9092）
调用 ServerSocketChannel.accept() 接受新 TCP 连接
将新连接轮询分配（Round-Robin）给某个 Processor 线程

Acceptor 线程自身不做任何 I/O 读写，仅做连接分配，因此它永远不会成为瓶颈。

# 通过 jstack 确认 Acceptor 线程存在
jstack <kafka-pid> | grep -A 5 "kafka-network-thread.*Acceptor"
# 应看到：
# "kafka-network-thread-1-Acceptor" #43 daemon prio=5
#   java.lang.Thread.State: RUNNABLE
#   at sun.nio.ch.EPollArrayWrapper.epollWait(...)

第二层：Processor 线程（N 个）

每个 Processor 线程持有自己独立的 Selector，负责管理一个连接子集：

读取阶段：

selector.select() 检测哪些连接有数据可读
从 SocketChannel 读取字节流，按 Kafka 协议解析出完整的 NetworkReceive
将解析好的 RequestChannel.Request 对象放入 RequestChannel（有界队列）

写入阶段：

I/O Handler 处理完请求后，将 Response 放回对应 Processor 的响应队列
Processor 检测到有响应待写，将其写入 SocketChannel

# 查看 Processor 线程
jstack <kafka-pid> | grep "kafka-network-thread"
# 每个监听端口有 num.network.threads 个 Processor 线程：
# "kafka-network-thread-1-ListenerName(PLAINTEXT)-0"
# "kafka-network-thread-1-ListenerName(PLAINTEXT)-1"
# "kafka-network-thread-1-ListenerName(PLAINTEXT)-2"

第三层：I/O Handler 线程（M 个）+ KafkaApis

I/O Handler 线程（由 num.io.threads 控制，默认8个）从 RequestChannel 取出请求，调用 KafkaApis 分发处理：

// KafkaApis.handle() 的核心分发逻辑（Scala 源码简化）
def handle(request: RequestChannel.Request, requestLocal: RequestLocal): Unit = {
  request.header.apiKey match {
    case ApiKeys.PRODUCE          => handleProduceRequest(request, requestLocal)
    case ApiKeys.FETCH            => handleFetchRequest(request)
    case ApiKeys.LIST_OFFSETS     => handleListOffsetRequest(request, requestLocal)
    case ApiKeys.METADATA         => handleTopicMetadataRequest(request)
    case ApiKeys.JOIN_GROUP       => handleJoinGroupRequest(request, requestLocal)
    case ApiKeys.SYNC_GROUP       => handleSyncGroupRequest(request, requestLocal)
    case ApiKeys.HEARTBEAT        => handleHeartbeatRequest(request)
    case ApiKeys.OFFSET_COMMIT    => handleOffsetCommitRequest(request, requestLocal)
    case ApiKeys.OFFSET_FETCH     => handleOffsetFetchRequest(request, requestLocal)
    // ... 80+ 种 ApiKey
    case _ => throw new IllegalStateException(s"No handler for ${request.header.apiKey}")
  }
}

每个 ApiKey 对应一种 Kafka 协议请求。生产者写入使用 PRODUCE，消费者拉取使用 FETCH，再平衡使用 JOIN_GROUP/SYNC_GROUP，客户端发现 Broker 地址使用 METADATA。

Purgatory：延迟操作的等待室

acks=all 时的挑战

当生产者配置 acks=all 时，ProduceRequest 必须等待所有 ISR 副本都确认写入才能响应。这产生了一个问题：I/O Handler 线程不能在原地阻塞等待 ISR 响应，因为那会耗尽线程池，导致后续请求无法处理。

Purgatory（源自但丁神曲，意为"炼狱"，等待区）解决了这个问题：

ProduceRequest 到达
      ↓
写入本地 Log（Leader）
      ↓
需要等待 ISR 确认？(acks=all)
   是 ↓
创建 DelayedProduce 对象，放入 Purgatory
I/O Handler 线程立即释放，处理下一个请求
      ↓
Follower 发送 FetchRequest，拉取新写入的数据
      ↓
Leader 收到 Fetch，更新该 Follower 的 LEO
      ↓
检查 ISR 是否全部确认（min ISR 水位达到）？
   是 ↓
从 Purgatory 中取出 DelayedProduce，生成响应
通过 Processor 发送给客户端

TimingWheel：高效的超时管理

Purgatory 中的延迟操作都有超时时间（request.timeout.ms）。Kafka 使用**时间轮（TimingWheel）**而非传统的优先级队列（PriorityQueue/DelayQueue）来管理超时，原因如下：

操作	PriorityQueue	TimingWheel
插入延迟任务	O(log n)	O(1)
取消延迟任务	O(log n)	O(1)
触发超时检查	O(1)	O(1)

对于 Kafka 这样百万级并发延迟操作的场景，O(log n) vs O(1) 的差距是决定性的。

时间轮的实现原理（分层时间轮）：

第一层时间轮：刻度 = 1ms，槽位 = 20，覆盖 20ms
                 ↓ 溢出时升级
第二层时间轮：刻度 = 20ms，槽位 = 20，覆盖 400ms
                 ↓ 溢出时升级
第三层时间轮：刻度 = 400ms，槽位 = 20，覆盖 8000ms

超时任务按其到期时间被放入对应层次的时间轮槽位中，系统时钟推进时，触发到期任务。

Purgatory 的两种延迟操作

DelayedProduce：等待 ISR 确认的生产请求

触发条件：所有 ISR 副本的 LEO ≥ 新消息的 offset
超时行为：返回 REQUEST_TIMED_OUT 给生产者

DelayedFetch：等待足够数据的消费请求（fetch.min.bytes > 0）

触发条件：分区积累了足够的新消息
超时行为：返回当前所有可用数据（即使少于 fetch.min.bytes）

# 监控 Purgatory 中的等待操作数量（JMX 指标）
# kafka.server:type=DelayedOperationPurgatory,delayedOperation=Produce
# 指标名：NumDelayedOperations
# 正常情况下应接近 0，大量积压表明 ISR 确认延迟严重

请求处理的完整时序

下面是一个 acks=all 的 ProduceRequest 从到达到响应的完整生命周期：

[时间轴]

T=0ms   : Producer 发送 ProduceRequest
          Acceptor 线程接受连接（如果是新连接）

T=0.1ms : Processor-0 的 Selector 检测到可读事件
          从 SocketChannel 读取字节
          解析 Kafka 协议头（RequestHeader）
          构建 RequestChannel.Request 对象
          放入 RequestChannel 队列

T=0.5ms : I/O Handler-3 从队列取出请求
          KafkaApis.handle() → handleProduceRequest()
          验证 ACL、配额限制
          写入 LogManager（磁盘 I/O）

T=2ms   : 本地写入完成
          创建 DelayedProduce，放入 Purgatory
          I/O Handler-3 释放，处理其他请求

T=5ms   : Follower-1 的 FetchRequest 到达
          I/O Handler 处理 Fetch，返回新数据
          Follower-1 写入本地 Log
          FetchResponse 更新 Leader 的 ISR 状态

T=8ms   : Follower-2 的 FetchRequest 到达，同样流程

T=9ms   : 所有 ISR 成员确认，触发 DelayedProduce
          构建 ProduceResponse（包含 offset、timestamp）
          放入 Processor-0 的响应队列

T=9.5ms : Processor-0 检测到响应待发
          通过 SocketChannel 将响应写回 Producer
          Producer 的 send() Future 完成

总耗时：约 9.5ms（acks=all，ISR 跨机房场景可能 50-100ms）

理解这个流水线，在遇到高 P99 延迟时，你能通过 JMX 指标快速定位瓶颈在哪个环节：是网络读取慢（Processor 耗时）、磁盘写入慢（I/O Handler 耗时）、还是 ISR 确认慢（Purgatory 等待时间）。

Level 3 · 规范怎么定义的（资深）

本章的协议与规范细节已融入上述 Level 中。如需深入了解，请参阅 Kafka 官方协议文档和对应 KIP 提案。

Level 4 · 边界与陷阱（所有人）

参数调优：num.network.threads vs num.io.threads

num.network.threads（默认：3）

Processor 线程是纯 I/O 线程：读字节、解析协议、写字节。它们的瓶颈是网络带宽和连接数量，而非 CPU 计算。

何时增加：

Broker 有大量客户端连接（如连接数超过 5000）
监控发现 Processor 线程的 CPU 使用率长期 > 80%
请求处理延迟升高，但 I/O Handler 线程队列不满

参考公式：

num.network.threads ≥ ceil(总连接数 / 1000)

对于大多数生产集群（连接数 < 3000），默认值 3 已经足够。

# 监控网络线程使用率
# JMX: kafka.network:type=SocketServer,name=NetworkProcessorAvgIdlePercent
# 值越低表示 Processor 越繁忙
# 低于 30% 时考虑增加 num.network.threads

num.io.threads（默认：8）

I/O Handler 线程执行实际的业务逻辑：写 Log、读 Log、更新 ISR、协调组等。这些操作涉及磁盘 I/O 和数据处理，CPU 使用率较高。