第一章引言与回顾 —— 熵、互信息、典型序列与信道容量

第一章是整门课的数学语言基础。熵与互信息的定义、链式法则、四个不等式（IT/Jensen/Fano/数据处理）、典型序列与AEP、信道容量的定义与计算——这些是后续所有章节证明推导的通用工具箱。

1.1 熵（Entropy）

定义

$H(X) = -\sum_{x \in \mathcal{X}} P(x)\log P(x) = E\left[\log\frac{1}{P(X)}\right]$

基本性质与证明

性质1 — 非负性（离散）：$H(X) \geq 0$

证：$0 \leq P(x) \leq 1 \implies \log(1/P(x)) \geq 0 \implies H(X) = E[\log(1/P(X))] \geq 0$。等号当 $X$ 为确定性变量。

性质2 — 上界：$H(X) \leq \log|\mathcal{X}|$

证：令 $u(x) = 1/|\mathcal{X}|$ 为均匀分布。
$\begin{aligned} 0 &\leq D(P\|u) = \sum_x P(x)\log\frac{P(x)}{1/|\mathcal{X}|} \\ &= \sum_x P(x)\log P(x) + \sum_x P(x)\log|\mathcal{X}| = -H(X) + \log|\mathcal{X}| \end{aligned}$
故 $H(X) \leq \log|\mathcal{X}|$。等号当且仅当 $P(x) = u(x)$ 即均匀分布。

性质3 — 凹性：$H(X)$ 是 $P(x)$ 的凹函数（∩）

含义：$H(\lambda P_1 + (1-\lambda)P_2) \geq \lambda H(P_1) + (1-\lambda)H(P_2)$。这是 $-x\log x$ 凹性的直接结果。

联合熵与条件熵

公式	名称	含义
$H(X,Y) = -\sum_{x,y} P(x,y)\log P(x,y)$	联合熵	$X,Y$ 总不确定度
$H(X\vert Y) = -\sum_{x,y} P(x,y)\log P(x\vert y)$	条件熵	已知 $Y$ 后 $X$ 剩余的不确定度
$H(X,Y) = H(X) + H(Y\vert X) = H(Y) + H(X\vert Y)$	链式法则（2变量）	联合熵的分解

性质4 — 条件不增熵：$H(X|Y) \leq H(X)$

证：$H(X) - H(X|Y) = I(X;Y) \geq 0$（由 $D(P_{XY}|P_X P_Y) \geq 0$）。等号当 $X \perp Y$。

性质5 — 链式法则（$N$ 变量）：

$H(X_1, X_2, \ldots, X_N) = \sum_{n=1}^{N} H(X_n | X_1, \ldots, X_{n-1})$

性质6 — 独立界： $H(X_1^n) \leq \sum_{i=1}^n H(X_i)$ ，等号当 $X_i$ 相互独立。

微分熵（连续随机变量）

$h(X) = -\int f(x)\log f(x)\,dx$

注意：微分熵可正可负，不具有绝对参考意义，通常以差值形式出现（如互信息）。

性质7 — 给定方差下的最大微分熵：

$h(X) \leq \frac{1}{2}\log(2\pi e\sigma^2)$

等号当且仅当 $X \sim \mathcal{N}(\mu, \sigma^2)$。

证：令 $f$ 为 $X$ 的密度，$\phi$ 为 $\mathcal{N}(0,\sigma^2)$ 的密度。
$0 \leq D(f\|\phi) = \int f\log\frac{f}{\phi} = -h(f) + h(\phi) = -h(X) + \frac{1}{2}\log(2\pi e\sigma^2)$

性质8 — 向量情形的最大微分熵：

$h(\mathbf{X}) \leq \frac{1}{2}\log\left[(2\pi e)^n|K|\right]$

等号当且仅当 $\mathbf{X} \sim \mathcal{N}(0, K)$。该结论在 MIMO 信道容量推导中非常重要——最优输入分布是高斯分布。

1.2 相对熵（KL 散度）

定义

$D(P\|Q) = \sum_{x \in \text{supp}(P)} P(x)\log\frac{P(x)}{Q(x)}$

性质与证明

性质9 — 非负性（信息不等式）：$D(P|Q) \geq 0$

证（Jensen）：
$-D(P\|Q) = \sum_x P(x)\log\frac{Q(x)}{P(x)} \leq \log\left(\sum_x P(x)\frac{Q(x)}{P(x)}\right) = \log 1 = 0$
其中 $\log(\cdot)$ 是凹函数，由 Jensen：$E[\log Z] \leq \log E[Z]$，取 $Z = Q(x)/P(x)$。
等号当且仅当 $\frac{Q(x)}{P(x)} \equiv 1$ 即 $P = Q$。

性质10 — 不对称性：$D(P|Q) \neq D(Q|P)$（一般情况）。

性质11 — 对 $(P,Q)$ 联合凸。

性质12 — 链式法则：

$D(P(x,y)\|Q(x,y)) = D(P(x)\|Q(x)) + D(P(y|x)\|Q(y|x))$

1.3 互信息（Mutual Information）

定义

$I(X;Y) = D(P(x,y) \| P(x)P(y)) = \sum_{x,y} P(x,y)\log\frac{P(x,y)}{P(x)P(y)}$

等价形式

$I(X;Y) = H(Y) - H(Y|X) = H(X) - H(X|Y) = H(X) + H(Y) - H(X,Y)$

理解：已知 $X$ 使 $Y$ 的不确定度减少了多少。

三种情形的互信息计算公式

情形	公式
离散-离散	$I(X;Y) = H(Y) - H(Y\vert X) = H(X) - H(X\vert Y)$
连续-连续	$I(X;Y) = h(Y) - h(Y\vert X) = h(X) - h(X\vert Y)$
混合（$X$离散，$Y\vert X$连续）	$I(X;Y) = h(Y) - h(Y\vert X) = H(X) - H(X\vert Y)$

第三种在通信中最常见：$X$ 是离散发送符号，$Y$ 是叠加了连续噪声的接收信号。

熵与互信息的 Venn 图关系

      H(X,Y) 全集
┌─────────────────────────┐
│  ┌─────────┐  ┌───────┐ │
│  │ H(X│Y)  │  │H(Y│X) │ │
│  │         │  │       │ │
│  │   ┌─────┴──┴──┐    │ │
│  │   │  I(X;Y)   │    │ │
│  │   └───────────┘    │ │
│  └────────────────────┘ │
└─────────────────────────┘

$H(X) = H(X|Y) + I(X;Y)$
$H(Y) = H(Y|X) + I(X;Y)$
$H(X,Y) = H(X|Y) + I(X;Y) + H(Y|X)$

条件互信息

$I(X;Y|Z) = H(Y|Z) - H(Y|X,Z)$

重要：$I(X;Y|Z)$ 与 $I(X;Y)$ 之间没有普遍的大小关系！条件作用可以增加互信息（$X,Y$ 独立但通过 $Z$ 关联时），也可减少（$Z$ 已包含共享信息时）。

性质与证明

性质13 — 非负性：$I(X;Y) \geq 0$

证：$I(X;Y) = D(P(x,y)|P(x)P(y)) \geq 0$（由 KL 散度的非负性）。

性质14 — 对称性：$I(X;Y) = I(Y;X)$

性质15 — 上界（离散）：$I(X;Y) \leq \min{H(X), H(Y)}$

证：$I(X;Y) = H(X) - H(X|Y) \leq H(X)$（因 $H(X|Y) \geq 0$）。

性质16 — 链式法则：

$I(X_1, X_2, \ldots, X_n; Y) = \sum_{i=1}^{n} I(X_i; Y | X_1, \ldots, X_{i-1})$

性质17 — 凸性：

固定 $P(y|x)$，$I(X;Y)$ 是 $P(x)$ 的凹函数（∩） — 保证容量优化是凸问题
固定 $P(x)$，$I(X;Y)$ 是 $P(y|x)$ 的凸函数（∪） — 保证率失真优化是凸问题

1.4 四个核心不等式（证明工具箱）

(1) IT 不等式

$\ln r \leq r - 1, \quad \forall r > 0$

证：令 $f(r) = \ln r - (r-1)$，$f’(r) = 1/r - 1$，$f$ 在 $r=1$ 取最大值 $f(1)=0$。
变体：$\log_2 r \leq (r-1)\log_2 e$。

(2) Jensen 不等式

$f(E[X]) \leq E[f(X)] \quad (f \text{ 为凸函数} \cup)$ $f(E[X]) \geq E[f(X)] \quad (f \text{ 为凹函数} \cap)$

在信息论中的核心用法：$\log(\cdot)$ 为凹函数 → $E[\log X] \leq \log E[X]$。这是证明 $D(P|Q) \geq 0$ 和 $H(X) \leq \log|\mathcal{X}|$ 的基础。

(3) 数据处理不等式（Data Processing Inequality）

若 $X \to Y \to Z$ 构成 Markov 链，则 $I(X;Z) \leq I(X;Y)$。

证：
$\begin{aligned} I(X;Z) &\leq I(X;Z) + I(X;Y|Z) = I(X;Y,Z) \\ &= I(X;Y) + I(X;Z|Y) = I(X;Y) \end{aligned}$
其中 $I(X;Z|Y) = 0$ 由 Markov 性 $X \to Y \to Z$ 保证。

推论：$I(X; g(Y)) \leq I(X; Y)$——对数据的任何后处理都不会增加信息量。这指导了现代通信系统采用软判决而非硬判决的设计。

(4) Fano 不等式

$H(P_e) + P_e \log(|\mathcal{X}|-1) \geq H(X|Y)$

其中 $P_e = \Pr(\hat{X} \neq X)$。

证：定义错误指示变量 $E = 1_{ {\hat{X} \neq X} }$。
$\begin{aligned} H(X|Y) &\leq H(X,E|Y) = H(E|Y) + H(X|E,Y) \\ &\leq H(P_e) + P(E=0) \cdot 0 + P(E=1) \cdot H(X|Y, E=1) \\ &\leq H(P_e) + P_e \log(|\mathcal{X}|-1) \end{aligned}$
弱化版（更常用）：$H(X|Y) \leq 1 + P_e \log|\mathcal{X}|$，或 $P_e \geq \frac{H(X|Y) - 1}{\log|\mathcal{X}|}$。

Fano 不等式在逆定理中的应用模式（贯穿全书）：
$nR = H(M) \leq I(M; Y^n) + n\epsilon_n$
然后用链式法则展开 $I(M; Y^n)$，逐步单字母化。

(5) 熵功率不等式（EPI）

标量 EPI：若 $X \perp Z$，则 $2^{2h(X+Z)} \geq 2^{2h(X)} + 2^{2h(Z)}$。等号当 $X,Z$ 为高斯且方差成比例。

向量 EPI：$2^{\frac{2}{n}h(X^n+Z^n)} \geq 2^{\frac{2}{n}h(X^n)} + 2^{\frac{2}{n}h(Z^n)}$。

条件 EPI（用于高斯 BC 逆定理）：

$2^{\frac{2}{n}h(Y^n|U)} \geq 2^{\frac{2}{n}h(X^n|U)} + 2^{\frac{2}{n}h(Z^n|U)}$

1.5 典型序列与 AEP

弱典型（熵-典型）序列

由弱大数定律（WLLN）应用于 $\log\frac{1}{P(X_i)}$（期望为 $H(X)$），得 AEP：

$\frac{1}{n}\log\frac{1}{P(X^n)} \to H(X) \quad \text{依概率收敛}$

典型集：$T_\varepsilon^{(n)} = {x^n : \left|-\frac{1}{n}\log P(x^n) - H(X)\right| \leq \varepsilon }$

典型集的三个核心性质

性质	数学表达
(a) 近似等概	$2^{-n[H(X)+\varepsilon]} \leq P(x^n) \leq 2^{-n[H(X)-\varepsilon]}$
(b) 高概率	$P(X^n \in T_\varepsilon^{(n)}) \to 1$（$n \to \infty$）
(c) 数量极少	$(1-\varepsilon)2^{n[H(X)-\varepsilon]} \leq \vert T_\varepsilon^{(n)}\vert \leq 2^{n[H(X)+\varepsilon]}$

核心洞察：总共 $|\mathcal{X}|^n$ 种序列中，典型集大小仅约 $2^{nH(X)}$——数量极少但概率几乎为 1。

    graph LR
    subgraph 全部序列空间
        T["典型集 T<sub>ε</sub><br/>大小 ≈ 2<sup>nH(X)</sup><br/>概率 ≈ 1"]
        NT["非典型集<br/>大小 ≈ |X|<sup>n</sup><br/>概率 ≈ 0"]
    end
    style T fill:#e1f5fe
    style NT fill:#ffebee

联合典型与联合 AEP

联合典型集：$(x^n, y^n)$ 同时满足 $x^n$ 关于 $X$ 典型、$y^n$ 关于 $Y$ 典型、$(x^n,y^n)$ 关于 $(X,Y)$ 联合典型。

定理 1.2.1（联合 AEP）：$(X^n, Y^n)$ i.i.d. 从 $P(x,y)$ 抽取时，

$P((X^n, Y^n) \in T_\varepsilon^{(n)}) \to 1$
$|T_\varepsilon^{(n)}| \leq 2^{n[H(X,Y)+\varepsilon]}$

定理 1.2.2（独立抽取的联合典型概率）：
若 $\tilde{X}^n$ 与 $\tilde{Y}^n$ 分别独立地从 $P(x)$ 和 $P(y)$ 抽取，则

$P((\tilde{X}^n, \tilde{Y}^n) \in T_\varepsilon^{(n)}) \leq 2^{-n[I(X;Y)-3\varepsilon]}$

证：
$\begin{aligned} P((\tilde{X}^n,\tilde{Y}^n) \in T_\varepsilon^{(n)}) &= \sum_{(x^n,y^n) \in T_\varepsilon^{(n)}} P(x^n)P(y^n) \\ &\leq |T_\varepsilon^{(n)}| \cdot 2^{-n[H(X)-\varepsilon]} \cdot 2^{-n[H(Y)-\varepsilon]} \\ &\leq 2^{n[H(X,Y)+\varepsilon]} \cdot 2^{-n[H(X)+H(Y)-2\varepsilon]} \\ &= 2^{-n[I(X;Y)-3\varepsilon]} \end{aligned}$
这是信道编码定理证明中最关键的界。含义：两个独立产生的序列”碰巧联合典型”的概率以 $I(X;Y)$ 的指数衰减。

强典型序列

要求每种符号的经验频率都接近真实概率（仅适用于离散变量）：

$T_\varepsilon^{(n)} = \left\{x^n : \left|\frac{1}{n}N(a|x^n) - P_X(a)\right| < \varepsilon P_X(a),\ \forall a \in \mathcal{X}\right\}$

对比	弱典型	强典型
条件	$-\frac{1}{n}\log P(x^n) \approx H(X)$	每种符号频率 $\approx$ 真实概率
适用范围	离散 + 连续	仅离散
互相关系	强典型 ⇒ 弱典型	弱典型 ⇏ 强典型

1.6 信源编码

无损信源编码定理

若 $R > H(X)$，则存在编码方案使 $P_e \to 0$（可达）
若 $R < H(X)$，则任何编码方案的 $P_e$ 不趋于 0（不可达）

Kraft 不等式（前缀码的充要条件）

$\sum_{i=1}^{K} D^{-l_i} \leq 1$

其中 $D$ 为编码字母表大小，$l_i$ 为第 $i$ 个码字长度。满前缀码以等式满足。

最优码长

理论最优： $l_i^* = -\log_D P_i$ ，期望码长 $L^* = H_D(X)$ 。

前缀信源编码定理

$\frac{H(X)}{\log D} \leq \bar{L}_n < \frac{H(X)}{\log D} + \frac{1}{n}$

编码	构造方法	特点
Shannon 码	$l_i = \lceil -\log_D P_i \rceil$	在 1 比特内达到最优
Huffman 码	贪心合并最小概率符号	单符号级别最优前缀码

1.7 信道容量

DMC 定义

$P(y_n | x_1, \ldots, x_n, y_1, \ldots, y_{n-1}) = P(y_n | x_n)$

无记忆性：$P(\mathbf{y}|\mathbf{x}) = \prod_{i=1}^{n} P(y_i|x_i)$。

    graph LR
    X("X ∈ X") -->|"P(y|x)"| Y("Y ∈ Y")

容量的双重定义

概念	定义
信息容量	$C = \max_{P(X)} I(X;Y)$
操作容量	所有可达速率的上确界
可达速率 $R$	存在 $(2^{nR}, n)$ 码使 $P_e^{(n)} \to 0$

噪声信道编码定理

任意低于 $C = \max_{P(X)} I(X;Y)$ 的速率都是可达的。操作容量 = 信息容量。

    graph LR
    subgraph 可达性
        A["R < C: 可达<br/>P<sub>e</sub> → 0"]
        B["R > C: 不可达<br/>P<sub>e</sub> ↛ 0"]
    end
    style A fill:#c8e6c9
    style B fill:#ffcdd2

可达性证明框架（随机编码 + 联合典型译码）

随机码本生成：固定 $P(x)$，独立生成 $2^{nR}$ 个码字 $\sim \prod P(x_i)$
编码：发送消息 $w$ 对应的 $X^n(w)$
联合典型译码：收到 $Y^n$，找唯一 $\hat{w}$ 使 $(X^n(\hat{w}), Y^n) \in T_\varepsilon^{(n)}$
错误分析（发送 $w=1$）：

$P_e^{(n)} \leq P(E_1) + \sum_{w \neq 1} P(E_w)$

$E_1$：正确码字不典型 → AEP → $\to 0$
$E_w$（$w \neq 1$）：错误码字碰巧与 $Y^n$ 联合典型 $P(E_w) \leq 2^{-n[I(X;Y)-3\varepsilon]} \quad \text{（定理 1.2.2）}$

$\sum_{w \neq 1} P(E_w) \leq 2^{nR} \cdot 2^{-n[I(X;Y)-3\varepsilon]} \to 0 \quad \text{当 } R < I(X;Y)$

结论：平均错误概率 → 0，存在好码。对 $P(x)$ 取 max 得 $C$。

逆定理框架（Fano + 链式法则——通用模板）

$\begin{aligned} nR &\leq I(M; Y^n) + n\epsilon_n \quad \text{(Fano)} \\ &= \sum_{i=1}^n I(M; Y_i | Y^{i-1}) \quad \text{(链式法则)} \\ &\leq \sum_{i=1}^n I(X_i; Y_i) \quad \text{(Markov性 + 无记忆)} \\ &\leq n \max_{P(x)} I(X;Y) = nC \end{aligned}$

典型信道的容量公式

BSC（二元对称信道，交叉概率 $\varepsilon$）：

    graph LR
    X0("0") -->|"1-ε"| Y0("0")
    X0 -->|"ε"| Y1("1")
    X1("1") -->|"ε"| Y0("0")
    X1 -->|"1-ε"| Y1("1")

$C = 1 - H_2(\varepsilon), \quad H_2(p) = -p\log_2 p - (1-p)\log_2(1-p)$

最优输入：等概 $P(0)=P(1)=1/2$。

BEC（二元擦除信道，擦除概率 $\alpha$）：

    graph LR
    X0("0") -->|"1-α"| Y0("0")
    X0 -->|"α"| Ye("e")
    X1("1") -->|"α"| Ye("e")
    X1 -->|"1-α"| Y1("1")

$C = 1 - \alpha$

推导：
$\begin{aligned} C &= \max_{P(X)} [H(X) - H(X|Y)] \\ &= \max_{P(X)} [H(X) - P(Y=e)H(X|Y=e)] \quad (Y=0,1 \text{ 时 } H(X|Y)=0) \\ &= \max_{P(X)} H(X)(1-\alpha) = 1 - \alpha \end{aligned}$

反馈容量

对于 DMC，反馈不增加容量：$C{FB} = C = \max{P(x)} I(X;Y)$。

高斯信道

    graph LR
    X("X<br/>E[X²] ≤ P") -->|"×h"| PLUS(("+"))
    Z(("Z ~ N(0,σ²)")) --> PLUS
    PLUS --> Y("Y = hX + Z")

$C = \frac{1}{2}\log_2\left(1 + \frac{h^2P}{\sigma_z^2}\right) = \frac{1}{2}\log_2(1 + \text{SNR})$

推导：
$\begin{aligned} I(X;Y) &= h(Y) - h(Y|X) = h(Y) - h(Z) \\ &= \frac{1}{2}\log[2\pi e(h^2P + \sigma_z^2)] - \frac{1}{2}\log[2\pi e\sigma_z^2] \\ &= \frac{1}{2}\log\left(1 + \frac{h^2P}{\sigma_z^2}\right) \end{aligned}$
最优输入：$X \sim \mathcal{N}(0, P)$。

Shannon-Hartley 定理（限带 AWGN）：$C = W\log_2(1 + \text{SNR})$ bits/s。

信源-信道分离定理

    graph LR
    V["信源 V<br/>H(V)"] --> ENC_S["信源编码器"]
    ENC_S --> ENC_C["信道编码器"]
    ENC_C --> CH["信道 P(y|x)<br/>容量 C"]
    CH --> DEC_C["信道译码器"]
    DEC_C --> DEC_S["信源译码器"]
    DEC_S --> VHAT["V̂"]

可靠通信可做到当且仅当 $H(V) < C$。信源编码与信道编码可以分开独立设计。

1.8 MIMO 信道

系统模型

$\mathbf{y} = \mathbf{H}\mathbf{x} + \mathbf{n}$

    graph TB
    subgraph 发射端["N 根发射天线"]
        TX["x ∈ ℂ<sup>N</sup>"]
    end
    subgraph 信道["信道矩阵 H ∈ ℂ<sup>M×N</sup>"]
        Hdesc["H"]
    end
    subgraph 接收端["M 根接收天线"]
        RX(("+"))
    end
    TX --> Hdesc
    Hdesc --> RX
    N1["n ~ CN(0,N₀I)"] --> RX
    RX --> Y["y ∈ ℂ<sup>M</sup>"]

功率约束：$E[|\mathbf{x}|^2] = \text{tr}(\mathbf{K}_x) \leq P$，其中 $\mathbf{K}_x = E[\mathbf{x}\mathbf{x}^H]$。

SVD 分解——将 MIMO 化为并行标量信道

$\mathbf{H} = \mathbf{U}\boldsymbol{\Lambda}\mathbf{V}^H$

$\boldsymbol{\Lambda}$：非负实对角矩阵（奇异值 $\sqrt{\lambda_i}$）
$\mathbf{U}, \mathbf{V}$：酉矩阵

等效变换：$\tilde{\mathbf{y}} = \boldsymbol{\Lambda}\tilde{\mathbf{x}} + \tilde{\mathbf{n}}$，展开为 $m = \min(M,N)$ 个并行子信道：

$\tilde{y}_i = \sqrt{\lambda_i}\,\tilde{x}_i + \tilde{n}_i, \quad 1 \leq i \leq m$

    graph TB
    subgraph 原始MIMO
        X1["x"] --> H1["H"] --> P1(("+")) --> Y1["y"]
        N1A["n"] --> P1
    end
    subgraph SVD变换
        X2["x"] --> VH["V^H"] --> XT["x̃"]
        XT --> LAMBDA["Λ(对角)"] --> YT["ỹ"]
        YT --> U["U"] --> Y2["y"]
    end
    subgraph 并行子信道
        S1["子信道1: √λ₁"]
        S2["子信道2: √λ₂"]
        SD["..."]
        SM["子信道m: √λ_m"]
    end
    style LAMBDA fill:#f3e5f5,stroke:#7b1fa2

MIMO 容量一般表达式

$C(\mathbf{H}) = \max_{\mathbf{K}_x: \text{tr}(\mathbf{K}_x) = P} \log_2\det\left(\mathbf{I}_M + \frac{1}{N_0}\mathbf{H}\mathbf{K}_x\mathbf{H}^H\right)$

利用 $\det(\mathbf{I}_m + \mathbf{A}\mathbf{B}) = \det(\mathbf{I}_n + \mathbf{B}\mathbf{A})$ 可得等价形式。

注水算法（发射端已知信道 CSIT）

将 SVD 代入容量公式，得功率分配问题：

$C = \max_{\sum P_i \leq P} \sum_{i=1}^{m} \log_2\left(1 + \frac{P_i\lambda_i}{N_0}\right)$

最优解——注水功率分配：

$P_i = \left(\mu - \frac{N_0}{\lambda_i}\right)^+, \quad \sum P_i = P$

注水容量： $C_{WF} = \sum_{i=1}^{m} \frac{1}{2}\log_2(\mu\lambda_i)^+$

    graph TB
    subgraph "注水原理"
        CH1["子信道1: λ₁大 → 底低 → P₁大 ✅"]
        CH2["子信道2: λ₂中等 → P₂中等 ✅"]
        CH3["子信道3: λ₃太小 → P₃=0 ❌"]
    end
    MU["💧 水位 μ"]
    MU -.-> CH1
    MU -.-> CH2
    MU -.-> CH3
    style CH1 fill:#c8e6c9
    style CH2 fill:#fff9c4
    style CH3 fill:#ffcdd2

条件	策略
CSIT + CSIR	注水功率分配
无 CSIT（ZMSW 信道）	等功率分配 $\mathbf{K}_x = \frac{P}{N}\mathbf{I}_N$

1.9 第一章核心公式速查

名称	公式
熵	$H(X) = -\sum_x P(x)\log P(x)$
联合熵链式法则	$H(X_1^n) = \sum_{i=1}^n H(X_i\vert X_1^{i-1})$
微分熵	$h(X) = -\int f(x)\log f(x)dx$
最大微分熵（标量）	$h(X) \leq \frac{1}{2}\log(2\pi e\sigma^2)$
最大微分熵（向量）	$h(\mathbf{X}) \leq \frac{1}{2}\log[(2\pi e)^n\vert K\vert]$
KL 散度	$D(P \vert Q) = \sum_x P(x)\log\frac{P(x)}{Q(x)}$
互信息	$I(X;Y) = H(Y) - H(Y\vert X) = D(P_{XY} \vert P_X P_Y)$
互信息链式法则	$I(X_1^n;Y) = \sum_{i=1}^n I(X_i;Y\vert X_1^{i-1})$
IT 不等式	$\ln r \leq r - 1$
Jensen	$E[f(X)] \geq f(E[X])$（$f$ 凹）
数据处理不等式	$X \to Y \to Z \implies I(X;Z) \leq I(X;Y)$
Fano 不等式	$H(P_e) + P_e\log(\vert \mathcal{X}\vert-1) \geq H(X\vert Y)$
AEP	$-\frac{1}{n}\log P(X^n) \to H(X)$
联合典型概率界	$P((\tilde{x}^n,\tilde{y}^n) \in T_\varepsilon) \leq 2^{-n[I(X;Y)-3\varepsilon]}$
Kraft 不等式	$\sum_i D^{-l_i} \leq 1$
BSC 容量	$C = 1 - H_2(\varepsilon)$
BEC 容量	$C = 1 - \alpha$
高斯信道容量	$C = \frac{1}{2}\log(1 + \text{SNR})$
MIMO 容量（一般）	$C = \max_{\text{tr}(\mathbf{K}_x)=P} \log_2\det(\mathbf{I} + \frac{1}{N_0}\mathbf{H}\mathbf{K}_x\mathbf{H}^H)$
注水功率分配	$P_i = (\mu - N_0/\lambda_i)^+$

第二章多址接入信道（MAC）

2.1 系统模型与核心特征

    graph TB
    W1["W₁"] --> ENC1["编码器1<br/>X₁^n(W₁)"]
    W2["W₂"] --> ENC2["编码器2<br/>X₂^n(W₂)"]
    ENC1 -->|"X₁^n"| CH["MAC<br/>P(y|x₁,x₂)"]
    ENC2 -->|"X₂^n"| CH
    CH -->|"Y^n"| DEC["联合译码器"]
    DEC --> W1HAT["Ŵ₁"]
    DEC --> W2HAT["Ŵ₂"]
    style CH fill:#f3e5f5,stroke:#7b1fa2
    style DEC fill:#e8f5e9,stroke:#2e7d32

关键特征：发端独立（$X_1 \perp X_2$，不可协作编码）、收端合作（联合译码）。

2.2 MAC 容量定理

定理 2.2.1：容量区域 = 所有满足以下条件的 $(R_1, R_2)$ 的凸壳的闭包：
$\boxed{\begin{aligned} R_1 &< I(X_1; Y | X_2) \\ R_2 &< I(X_2; Y | X_1) \\ R_1 + R_2 &< I(X_1, X_2; Y) \end{aligned}}$
其中 $P(x_1, x_2) = P(x_1)P(x_2)$。

容量区域形状（五边形）

R₂
^
| A(0, I(X₂;Y))
|  |＼
|  |   ＼  B(I(X₁;Y), I(X₂;Y|X₁))
|  |      ＼
|  |  C(I(X₁;Y|X₂), I(X₂;Y))
|  |       ／
|  |    ／
|  | ／
|  D(I(X₁;Y), 0)
+-----------------------> R₁

上边界 $R_1+R_2 = I(X_1,X_2;Y)$（和速率上界）
角点 B/D 用 SIC 可达，非角点用时间共享

2.3 可达性证明——同时译码 + 四类错误事件分析

编码：固定 $P(x_1)P(x_2)$，独立生成 $2^{nR_1}$ 个 $X_1^n(i)$ 和 $2^{nR_2}$ 个 $X_2^n(j)$。

同时译码规则：找唯一的 $(i,j)$ 使 $(X_1^n(i), X_2^n(j), Y^n) \in T_\varepsilon^{(n)}$ 。

错误概率（假设发送 $(1,1)$）：

$P_e^{(n)} \leq P(E_{1,1}^c) + \sum_{j \neq 1} P(E_{1,j}) + \sum_{i \neq 1} P(E_{i,1}) + \sum_{i \neq 1, j \neq 1} P(E_{i,j})$

四类错误的详细分析

① $E_{1,1}^c$（正确码字对不典型）：由联合 AEP，$\to 0$，无条件。

② $E_{i,1}$ ($i \neq 1$)（用户1错，用户2对）：

$X_1^n(i)$ 独立于 $(X_2^n(1), Y^n)$（后者从联合分布抽取）。

$\begin{aligned} P(E_{i,1}) &= \sum_{(x_1,x_2,y) \in T_\varepsilon} P(x_1)P(x_2,y) \\ &\leq |T_\varepsilon| \cdot 2^{-n[H(X_1)-\varepsilon]} \cdot 2^{-n[H(X_2,Y)-\varepsilon]} \\ &\leq 2^{n[H(X_1,X_2,Y)+\varepsilon]} \cdot 2^{-n[H(X_1)+H(X_2,Y)-2\varepsilon]} \\ &= 2^{-n[I(X_1;Y|X_2)-3\varepsilon]} \end{aligned}$

关键恒等式：
$H(X_1,X_2,Y) - [H(X_1)+H(X_2,Y)] = -I(X_1; X_2,Y) = -[I(X_1;X_2) + I(X_1;Y|X_2)] = -I(X_1;Y|X_2)$
最后一步因 $X_1 \perp X_2$，$I(X_1;X_2)=0$。

$\sum_{i \neq 1} P(E_{i,1}) \leq 2^{nR_1} \cdot 2^{-n[I(X_1;Y|X_2)-3\varepsilon]} \to 0 \quad \text{当 } R_1 < I(X_1;Y|X_2)$

③ $E_{1,j}$ ($j \neq 1$)（用户1对，用户2错）：对称地

$\sum_{j \neq 1} P(E_{1,j}) \leq 2^{nR_2} \cdot 2^{-n[I(X_2;Y|X_1)-3\varepsilon]} \to 0 \quad \text{当 } R_2 < I(X_2;Y|X_1)$

④ $E_{i,j}$ ($i,j \neq 1$)（两用户都错）：

$X_1^n(i), X_2^n(j), Y^n$ 三者相互独立。

$\begin{aligned} P(E_{i,j}) &\leq |T_\varepsilon| \cdot 2^{-n[H(X_1)-\varepsilon]} \cdot 2^{-n[H(X_2)-\varepsilon]} \cdot 2^{-n[H(Y)-\varepsilon]} \\ &\leq 2^{n[H(X_1,X_2,Y)+\varepsilon]} \cdot 2^{-n[H(X_1)+H(X_2)+H(Y)-3\varepsilon]} \\ &= 2^{-n[I(X_1,X_2;Y)-2\varepsilon]} \end{aligned}$

关键恒等式（利用 $X_1 \perp X_2$ 故 $H(X_1)+H(X_2) = H(X_1,X_2)$）：
$H(X_1,X_2,Y) - [H(X_1,X_2)+H(Y)] = -I(X_1,X_2;Y)$

$\sum_{i \neq 1, j \neq 1} P(E_{i,j}) \leq 2^{n(R_1+R_2)} \cdot 2^{-n[I(X_1,X_2;Y)-2\varepsilon]} \to 0 \quad \text{当 } R_1+R_2 < I(X_1,X_2;Y)$

总错误概率上界

$P_e^{(n)} \leq P(E_{1,1}^c) + 2^{nR_1}2^{-n[I(X_1;Y|X_2)-3\varepsilon]} + 2^{nR_2}2^{-n[I(X_2;Y|X_1)-3\varepsilon]} + 2^{n(R_1+R_2)}2^{-n[I(X_1,X_2;Y)-2\varepsilon]}$

当三个不等式满足时，$P_e^{(n)} \to 0$。平均错误概率可任意小 → 存在好码。

2.4 时间共享与凸壳

由于 $R_p$ 区域（对特定 $P(x_1)P(x_2)$）不一定凸，需取凸壳。引入时间共享变量 $Q$：

$P(q, x_1, x_2, y) = P(q) \cdot P(x_1|q) \cdot P(x_2|q) \cdot P(y|x_1, x_2)$

凸壳形式：

$R_1 < I(X_1; Y | X_2, Q), \quad R_2 < I(X_2; Y | X_1, Q), \quad R_1+R_2 < I(X_1, X_2; Y | Q)$

$|\mathcal{Q}| \leq 2$（Carathéodory 定理在二维的推论）。

2.5 逐次干扰消除（SIC）译码

达到角点 B $(I(X_1;Y), I(X_2;Y|X_1))$ 的步骤：

    graph TB
    Y["接收 Y^n"] --> STEP1["步骤1: 译用户1<br/>找唯一 Ŵ₁ 使 (X₁^n(Ŵ₁),Y^n) ∈ T<sub>ε</sub>"]
    STEP1 -->|"找到 Ŵ₁"| STEP2["步骤2: 译用户2<br/>找唯一 Ŵ₂ 使 (X₁^n(Ŵ₁),X₂^n(Ŵ₂),Y^n) ∈ T<sub>ε</sub>"]
    STEP2 --> OUT["输出 (Ŵ₁, Ŵ₂)"]

方法	特点
同时译码	一步找联合典型码字对
SIC + 时间共享	可达到整个容量区域

对 DM-MAC，同时译码不比 SIC + 时间共享更好。

2.6 高斯 MAC 容量区域

$Y = X_1 + X_2 + Z, \quad Z \sim \mathcal{N}(0, \sigma_z^2)$

    graph TB
    X1["X₁ ~ N(0,P₁)"] --> PLUS(("+"))
    X2["X₂ ~ N(0,P₂)"] --> PLUS
    Z["Z ~ N(0,σ²)"] --> PLUS
    PLUS --> Y["Y"]

$\boxed{ \begin{aligned} R_1 &\leq C\left(\frac{P_1}{\sigma_z^2}\right) \\ R_2 &\leq C\left(\frac{P_2}{\sigma_z^2}\right) \\ R_1 + R_2 &\leq C\left(\frac{P_1 + P_2}{\sigma_z^2}\right) \end{aligned}}$

其中 $C(x) = \frac{1}{2}\log(1+x)$。无需时间共享——单个 $R(X_1,X_2)$ 即为凸。

$R_1$ 约束推导：
$\begin{aligned} I(X_1;Y|X_2) &= h(Y|X_2) - h(Y|X_1,X_2) = h(X_1+Z|X_2) - h(Z) \\ &= h(X_1+Z) - h(Z) \quad (X_1 \perp X_2, Z \perp X_2) \\ &\leq \frac{1}{2}\log[2\pi e(P_1+\sigma_z^2)] - \frac{1}{2}\log[2\pi e\sigma_z^2] = C(P_1/\sigma_z^2) \end{aligned}$

2.7 速率分裂（Rate-Splitting）

将用户1分裂为 $(R_{1,a}, P_{1,a}), (R_{1,b}, P_{1,b})$ ， $X_1 = X_{1,a} + X_{1,b}$ 。

译码顺序： $X_{1,a} \to X_2 \to X_{1,b}$

$R_1 = R_{1,a} + R_{1,b} = C\!\left(\frac{P_1+P_2}{\sigma^2}\right) - C\!\left(\frac{P_2}{\delta+\sigma^2}\right)$

即 $R_1 = R_{\Sigma} - R_2$ ——通过调整 $\delta$ 在容量边界上滑动。

2.8 第二章核心公式速查

名称	公式
MAC 容量区域	$R_1 < I(X_1;Y\vert X_2),\; R_2 < I(X_2;Y\vert X_1),\; R_1+R_2 < I(X_1,X_2;Y)$
MAC 容量（凸壳形式）	同上，条件于 $Q$（$\vert Q\vert \leq 2$）
高斯 MAC 容量	$R_j \leq C(P_j/\sigma^2),\; R_1+R_2 \leq C((P_1+P_2)/\sigma^2)$
$E_{i,j}$ 错误概率界	$P(E_{i,j}) \leq 2^{-n[I(X_1,X_2;Y)-2\varepsilon]}$
$E_{i,1}$ 错误概率界	$P(E_{i,1}) \leq 2^{-n[I(X_1;Y\vert X_2)-3\varepsilon]}$

第三章广播信道（BC）

3.1 系统模型

    graph TB
    M0["M₀(公共)"] --> ENC
    M1["M₁(私密)"] --> ENC["编码器<br/>X^n(M₀,M₁,M₂)"]
    M2["M₂(私密)"] --> ENC
    ENC -->|"X^n"| CH["p(y₁,y₂|x)"]
    CH -->|"Y₁^n"| DEC1["译码器1 → (M̂₀,M̂₁)"]
    CH -->|"Y₂^n"| DEC2["译码器2 → (M̂₀,M̂₂)"]

BC 的容量区域在一般情况下未知。已知最佳内界：Marton (1979)；最佳外界：Nair-El Gamal (2007)。

3.2 叠加编码内界（Cover 1972）

核心思想：云中心 $U$（对两用户均可见） + 卫星码字 $X$（仅好用户可分辨）。

    graph TB
    CLOUD["☁️ 云中心 U^n(m₂)<br/>对两用户均可见"]
    SAT["🛰️ 卫星码字 X^n(m₁,m₂)<br/>仅好用户可分辨"]
    CLOUD -->|"叠加"| SAT
    style CLOUD fill:#bbdefb,stroke:#1565c0
    style SAT fill:#f3e5f5,stroke:#7b1fa2

定理：$(R_1, R_2)$ 可达，若存在 $p(u,x)$ 满足：
$\boxed{\begin{aligned} R_2 &\leq I(U; Y_2) \\ R_1 &\leq I(X; Y_1 | U) \\ R_1 + R_2 &\leq I(X; Y_1) \end{aligned}}$

3.3 退化 BC 容量定理

退化定义：$X \to Y_1 \to Y_2$（$Y_2$ 是 $Y_1$ 的物理/随机退化版）。

    graph LR
    X["X"] -->|"p(y₁|x)"| Y1["Y₁"]
    Y1 -->|"p(y₂|y₁)"| Y2["Y₂ (更差)"]

定理（Cover 1972, Bergmans 1973, Gallager 1974）：
$\boxed{\begin{aligned} R_1 &\leq I(X; Y_1 | U) \\ R_2 &\leq I(U; Y_2) \end{aligned}}$
其中 $|\mathcal{U}| \leq \min{|\mathcal{X}|, |\mathcal{Y}_1|, |\mathcal{Y}_2|} + 1$。

Gallager 逆定理证明（考试核心）

关键技巧：识别辅助变量 $U_i = (M_2, Y_1^{i-1})$

约束 $R_1$ 的推导：

$\begin{aligned} nR_1 &\leq I(M_1; Y_1^n | M_2) + n\epsilon_n \quad (\text{Fano, 利用 } M_1 \perp M_2) \\ &= \sum_{i=1}^{n} I(M_1; Y_{1i} | M_2, Y_1^{i-1}) \quad (\text{链式法则}) \\ &= \sum_{i=1}^{n} [H(Y_{1i} | M_2, Y_1^{i-1}) - H(Y_{1i} | M_1, M_2, Y_1^{i-1})] \\ &= \sum_{i=1}^{n} [H(Y_{1i} | U_i) - H(Y_{1i} | X_i, U_i)] \quad (\text{因 } X_i = f_i(M_1,M_2), \text{信道无记忆}) \\ &= \sum_{i=1}^{n} I(X_i; Y_{1i} | U_i) \end{aligned}$

约束 $R_2$ 的推导（利用退化性）：

$\begin{aligned} nR_2 &\leq I(M_2; Y_2^n) + n\epsilon_n \\ &= \sum_{i=1}^{n} I(M_2; Y_{2i} | Y_2^{i-1}) \\ &\leq \sum_{i=1}^{n} I(M_2, Y_2^{i-1}; Y_{2i}) \\ &\leq \sum_{i=1}^{n} I(M_2, Y_1^{i-1}; Y_{2i}) \quad (\text{退化性：} Y_2^{i-1} \text{ 的信息不多于 } Y_1^{i-1}) \\ &= \sum_{i=1}^{n} I(U_i; Y_{2i}) \end{aligned}$

引入时间共享变量：$Q \sim \text{Unif}[1:n]$，$U = (Q, U_Q)$，得单字母表达式。

3.4 高斯 BC 容量区域与 EPI 逆定理

$Y_1 = g_1 X + Z_1, \quad Y_2 = g_2 X + Z_2$

设 $|g_1| \geq |g_2|$（用户1信道更好），$Z_j \sim \mathcal{N}(0, N_j)$。

定理：对某个 $\alpha \in [0,1]$：
$\boxed{\begin{aligned} R_1 &\leq C(\alpha S_1) = \frac{1}{2}\log\left(1 + \alpha \cdot \frac{g_1^2 P}{N_1}\right) \\ R_2 &\leq C\!\left(\frac{\bar{\alpha} S_2}{\alpha S_2 + 1}\right) = \frac{1}{2}\log\left(1 + \frac{(1-\alpha)g_2^2 P}{\alpha g_2^2 P + N_2}\right) \end{aligned}}$

其中 $S_j = g_j^2 P/N_j$，$\bar{\alpha} = 1-\alpha$。

可达性

取 $U \sim \mathcal{N}(0, \bar{\alpha}P)$，$V \sim \mathcal{N}(0, \alpha P)$，$U \perp V$，$X = U + V$。

用户2：将 $V$ 视为噪声 → $R_2 = I(U;Y_2) = C(\bar{\alpha}S_2/(\alpha S_2 + 1))$
用户1：SIC——先译 $U$，消除后再译 $V$ → $R_1 = I(V;Y_1|U) = C(\alpha S_1)$

逆定理（EPI 的应用）概要

由 Fano：$nR_2 \leq I(M_2; Y_2^n)$
$I(M_2; Y_2^n) \leq \frac{n}{2}\log(2\pi e(P+N_2)) - h(Y_2^n|M_2)$
由连续性，存在 $\alpha$ 使 $h(Y_2^n|M_2) = \frac{n}{2}\log(2\pi e(\alpha P + N_2))$
得 $R_2 \leq C(\bar{\alpha}S_2/(\alpha S_2 + 1))$
利用条件 EPI 处理 $R_1$：$2^{\frac{2}{n}h(Y_2^n|M_2)} \geq 2^{\frac{2}{n}h(Y_1^n|M_2)} + 2\pi e(N_2-N_1)$
导出 $R_1 \leq C(\alpha S_1)$

3.5 Less Noisy 与 More Capable BC

条件	定义	关系
Less Noisy	$I(U;Y_1) \geq I(U;Y_2)$ 对所有 $p(u,x)$	退化 ⇒ Less Noisy ⇒ More Capable
More Capable	$I(X;Y_1) \geq I(X;Y_2)$ 对所有 $p(x)$	容量区域已知（SC + 和速率约束）

3.6 Marton 编码方案

对于非退化的一般 BC，在叠加编码基础上引入binning（分箱）。

核心问题

如何从独立消息 $M_1, M_2$ 生成相关的 $U_1^n, U_2^n$？答案：分箱 + 联合典型匹配。

码本构造

随机独立生成 $2^{n(R_1+r_1)}$ 个 $U_1^n$ 和 $2^{n(R_2+r_2)}$ 个 $U_2^n$
分为 $2^{nR_1}$ 和 $2^{nR_2}$ 个箱
编码：在箱 $\mathcal{B}_1(m_1) \times \mathcal{B}_2(m_2)$ 中找联合典型的 $(U_1^n, U_2^n)$

箱中存在联合典型对的条件：$r_1 + r_2 \geq I(U_1; U_2)$（Mutual Covering Lemma）

Marton 内界定理

$\boxed{\begin{aligned} R_1 &\leq I(U_1; Y_1) \\ R_2 &\leq I(U_2; Y_2) \\ R_1 + R_2 &\leq I(U_1; Y_1) + I(U_2; Y_2) - I(U_1; U_2) \end{aligned}}$

通过 Fourier-Motzkin 消元：译 $U_1$ 需 $R_1+r_1 \leq I(U_1;Y_1)$，译 $U_2$ 需 $R_2+r_2 \leq I(U_2;Y_2)$，联合典型存在需 $r_1+r_2 \geq I(U_1;U_2)$。

3.7 Gelfand-Pinsker 问题与污纸编码（DPC）

问题设定

    graph TB
    M["消息 M"] --> ENC["编码器<br/>非因果已知 S^n"]
    S["状态 S^n ~ ∏ p(s)"] --> ENC
    S --> CH["信道 p(y|x,s)"]
    ENC -->|"X^n"| CH
    CH -->|"Y^n"| DEC["译码器<br/>未知 S^n"]
    DEC --> MHAT["M̂"]
    style ENC fill:#e3f2fd,stroke:#1565c0
    style S fill:#ffcdd2,stroke:#c62828

GP 定理

$C^{\text{SI-E}} = \max_{p(u|s), f(u,s)} \left[I(U; Y) - I(U; S)\right]$

可达性——Binning 编码

码本生成：每消息 $m$ 对应子码本 $\mathcal{C}(m)$ 含 $2^{nR’}$ 个 $U^n$（$\tilde{R} = R+R’$）
编码：给定 $(m, S^n)$，在 $\mathcal{C}(m)$ 中找与 $S^n$ 联合典型的 $U^n$，发 $X^n = f(U^n, S^n)$
- 条件：$R’ \geq I(U;S)$（Covering Lemma）
译码：找唯一 $(\hat{m},\hat{\ell})$ 使 $(U^n, Y^n) \in T_\varepsilon^{(n)}$
- 条件：$R+R’ \leq I(U;Y)$（Packing Lemma）
联合：$R \leq I(U;Y) - I(U;S)$

DPC 推导（Costa 1983）——核心考点

$Y = X + S + Z, \quad S \sim \mathcal{N}(0,Q),\; Z \sim \mathcal{N}(0,1),\; X \sim \mathcal{N}(0,P)$

取 $U = X + \alpha S$（$X \perp S$）：

$R(\alpha) = I(U;Y) - I(U;S) = \frac{1}{2}\log\frac{P(P+Q+1)}{PQ(1-\alpha)^2 + (P+\alpha^2 Q)}$

对 $\alpha$ 求导，得最优值：

$\boxed{\alpha^* = \frac{P}{P+1}}$

代入得： $R(\alpha^*) = \frac{1}{2}\log(1+P) = C(P)$ —— 完美抵消状态影响，达到无状态容量！

DPC 的 MMSE 理解（更直观）

当 $\alpha = \alpha^*$ 时：

$\begin{aligned} I(U;Y) - I(U;S) &= h(U|S) - h(U|Y) \\ &= h(X+\alpha S|S) - h(X+\alpha S|X+S+Z) \\ &= h(X) - h(X - \alpha(X+Z) | X+Z) \\ &= h(X) - h(X|X+Z) \quad (\text{因 } X-\alpha^*(X+Z) \perp X+Z \text{——MMSE正交性})\\ &= I(X; X+Z) = C(P) \end{aligned}$

$\alpha^* = \frac{P}{P+1}$ 正是 $X$ 关于 $Y=X+Z$ 的 L-MMSE 估计系数：
$\alpha^* = \frac{\text{Cov}(X, X+Z)}{\text{Var}(X+Z)} = \frac{P}{P+1}$

状态信息情景	AWGN 容量
收发均不知 $S$	$C(P/(1+Q))$（状态视为噪声）
仅译码端知 $S$	$C(P)$（直接减去 $S$）
仅编码端知 $S$（DPC）	$C(P)$（完美抵消）

3.8 第三章核心公式速查

名称	公式
叠加编码内界	$R_1 \leq I(X;Y_1\vert U),\; R_2 \leq I(U;Y_2),\; R_1+R_2 \leq I(X;Y_1)$
退化 BC 容量	$R_1 \leq I(X;Y_1\vert U),\; R_2 \leq I(U;Y_2)$
高斯 BC 容量	$R_1 \leq C(\alpha S_1),\; R_2 \leq C(\bar{\alpha}S_2/(\alpha S_2+1))$
Marton 内界	$R_j \leq I(U_j;Y_j),\; R_1+R_2 \leq I(U_1;Y_1)+I(U_2;Y_2)-I(U_1;U_2)$
GP 容量	$C^{\text{SI-E}} = \max[I(U;Y) - I(U;S)]$
DPC 最优参数	$\alpha^* = P/(P+1)$，容量 $= C(P)$

第四章相关信源的编码

4.1 Slepian-Wolf 定理

模型

    graph TB
    U["U^n"] --> ENC1["编码器1<br/>m₁(U^n)"]
    V["V^n"] --> ENC2["编码器2<br/>m₂(V^n)"]
    ENC1 -->|"M₁"| DEC["联合译码器"]
    ENC2 -->|"M₂"| DEC
    DEC --> UHAT["Û^n"]
    DEC --> VHAT["V̂^n"]

两个编码器不通信，但联合译码器需要同时恢复 $U^n$ 和 $V^n$。

定理

$\boxed{\begin{aligned} R_1 &\geq H(U | V) \\ R_2 &\geq H(V | U) \\ R_1 + R_2 &\geq H(U, V) \end{aligned}}$
核心发现（Slepian-Wolf 奇迹）：即使编码器不通信，和速率 $H(U,V)$ 仍然可达——与两编码器能协作时完全一样！

逆定理证明

证 $R_1 \geq H(U|V)$：

$\begin{aligned} nR_1 &\geq H(M_1) \geq H(M_1 | M_2) \\ &= I(M_1; U^n | M_2) \\ &= H(U^n | M_2) - H(U^n | M_1, M_2) \\ &\geq H(U^n | V^n, M_2) - H(U^n | \hat{U}^n) \quad (\text{Markov性})\\ &= H(U^n | V^n) - n\epsilon_n \quad (\text{Fano})\\ &= nH(U|V) - n\epsilon_n \end{aligned}$

证 $R_1+R_2 \geq H(U,V)$：

$\begin{aligned} n(R_1+R_2) &\geq H(M_1,M_2) \\ &= I(M_1,M_2; U^n,V^n) \\ &= H(U^n,V^n) - H(U^n,V^n | M_1,M_2) \\ &\geq nH(U,V) - n\epsilon_n \end{aligned}$

可达性——随机 Binning + 联合典型译码（四类错误）

对每个 $u^n$ 随机分配 bin $m_1 \in [1:2^{nR_1}]$，对每个 $v^n$ 随机分配 bin $m_2 \in [1:2^{nR_2}]$。

译码：在 $\mathcal{B}_1(m_1) \times \mathcal{B}_2(m_2)$ 中找唯一的联合典型对。

事件	定义	概率 → 0 的条件
$E_1$	$(U^n,V^n)$ 不典型	无条件（LLN）
$E_2$	$\exists \tilde{u}^n \neq U^n \in \mathcal{B}_1(m_1)$ 与 $V^n$ 联合典型	$R_1 > H(U\vert V)$
$E_3$	$\exists \tilde{v}^n \neq V^n \in \mathcal{B}_2(m_2)$ 与 $U^n$ 联合典型	$R_2 > H(V\vert U)$
$E_4$	两者都错但联合典型	$R_1+R_2 > H(U,V)$

$E_2$ 的定量分析：

$P(E_2) \leq |T_\varepsilon^{(n)}(U|V)| \cdot 2^{-nR_1} \approx 2^{nH(U|V)} \cdot 2^{-nR_1} \to 0 \quad \text{当 } R_1 > H(U|V)$

$k$ 源扩展

$\sum_{j \in S} R_j \geq H(\mathbf{X}(S) | \mathbf{X}(S^c)), \quad \forall S \subseteq [1:k]$

4.2 有 Helper 的无损压缩（Ahlswede-Körner-Wyner）

    graph TB
    X["X^n"] --> ENC1["编码器1<br/>m₁(X^n)"]
    Y["Y^n"] --> ENC2["编码器2 (Helper)<br/>m₂(Y^n)"]
    ENC1 -->|"M₁"| DEC["译码器<br/>X̂^n(M₁,M₂)"]
    ENC2 -->|"M₂"| DEC

定理：
$\boxed{\begin{aligned} R_1 &\geq H(X | U) \\ R_2 &\geq I(Y; U) \end{aligned}}$
对某个 $p(u|y)$，$|\mathcal{U}| \leq |\mathcal{Y}| + 1$，Markov 链 $U \to Y \to X$。

4.3 率失真理论

有损信源编码定理（Shannon 1959）

$R(D) = \min_{p(\hat{x}|x):\; E[d(X,\hat{X})] \leq D} I(X; \hat{X})$

Bernoulli 信源 + Hamming 失真：$R(D) = \max{H_2(p) - H_2(D), 0}$

高斯信源 + 平方误差：$R(D) = \frac{1}{2}\log^+(P/D)$

逆定理概要

$\begin{aligned} nR &\geq H(M) \geq I(M; X^n) \geq I(\hat{X}^n; X^n) \\ &= \sum_i I(\hat{X}^n; X_i | X^{i-1}) \geq \sum_i I(\hat{X}_i; X_i) \\ &\geq \sum_i R(E[d(X_i,\hat{X}_i)]) \geq nR\!\left(\frac{1}{n}\sum_i E[d]\right) \end{aligned}$

最后一步用 $R(D)$ 的凸性。

4.4 Wyner-Ziv 定理

模型

    graph TB
    X["X^n"] --> ENC["编码器<br/>m(X^n)"]
    ENC -->|"M"| DEC["译码器<br/>X̂^n(M, Y^n)"]
    Y["Y^n (边信息)"] --> DEC
    DEC --> XHAT["X̂^n"]

定理

$R^{\text{SI-D}}(D) = \min_{p(u|x),\; \hat{x}(u,y):\; E[d] \leq D} \big[I(X; U) - I(Y; U)\big] = \min I(X; U | Y)$

可达性——Compress-Bin 方案（三步法）

    graph TB
    subgraph ENC_SIDE["编码端 (Covering + Binning)"]
        XN["X^n"] --> COVER["Covering:<br/>找 l 使 (X^n,U^n(l)) ∈ T<sub>ε'</sub>"]
        COVER --> BIN["Binning:<br/>l ∈ B(m)，发送 m"]
    end
    subgraph DEC_SIDE["译码端 (Packing)"]
        M["m"] --> DECODE
        YN["Y^n"] --> DECODE["Packing:<br/>在 B(m) 中找唯一 U^n<br/>使 (U^n,Y^n) ∈ T<sub>ε</sub>"]
        DECODE --> RECON["重建 X̂^n"]
    end
    style ENC_SIDE fill:#e3f2fd,stroke:#1565c0
    style DEC_SIDE fill:#e8f5e9,stroke:#2e7d32

码本生成：生成 $2^{n\tilde{R}}$ 个 $U^n(l)$，均分为 $2^{nR}$ 个 bin。

编码：找 $l$ 使 $(X^n, U^n(l)) \in T_{\varepsilon’}^{(n)}$，发送 bin 索引 $m$。

$\tilde{R} > I(X;U)$（Covering——码本够大以覆盖 $X^n$）

译码：在 $\mathcal{B}(m)$ 中找唯一 $\hat{l}$ 使 $(U^n(\hat{l}), Y^n) \in T_\varepsilon^{(n)}$。

$\tilde{R} - R < I(Y;U)$（Packing——每 bin 够小以避免混淆）

联合：$R > I(X;U) - I(Y;U) = I(X;U|Y)$

Wyner-Ziv 与 Gelfand-Pinsker 的对偶

维度	Wyner-Ziv（信源编码）	Gelfand-Pinsker（信道编码）
公式	$\min[I(X;U) - I(Y;U)]$	$\max[I(U;Y) - I(U;S)]$
优化	最小化	最大化
编码工具	Covering	Binning（匹配状态）
译码工具	Packing	联合典型译码

4.5 第四章核心公式速查

名称	公式
Slepian-Wolf 区域	$R_1 \geq H(U\vert V),\; R_2 \geq H(V\vert U),\; R_1+R_2 \geq H(U,V)$
$k$-源 Slepian-Wolf	$\sum_{j \in S} R_j \geq H(\mathbf{X}(S) \vert \mathbf{X}(S^c))$
Ahlswede-Körner-Wyner	$R_1 \geq H(X\vert U),\; R_2 \geq I(Y;U)$，$U \to Y \to X$
率失真函数	$R(D) = \min_{p(\hat{x}\vert x): E[d] \leq D} I(X;\hat{X})$
Bernoulli + Hamming	$R(D) = \max{H_2(p) - H_2(D), 0}$
高斯 + 平方误差	$R(D) = \frac{1}{2}\log^+(P/D)$
Wyner-Ziv	$R^{\text{SI-D}} = \min[I(X;U) - I(Y;U)] = \min I(X;U\vert Y)$

第五章中继信道（Relay Channels）

5.1 系统模型

    graph TB
    M["消息 M"] --> ENC["源编码器<br/>X₁^n(M)"]
    ENC -->|"X₁^n"| CH["中继信道<br/>p(y₂,y₃|x₁,x₂)"]
    RELAY["中继编码器<br/>X₂_i(Y₂^{i-1})"] -->|"X₂^n"| CH
    CH -->|"Y₂^n"| RELAY
    CH -->|"Y₃^n"| DEC["目的译码器<br/>M̂(Y₃^n)"]
    style CH fill:#f3e5f5,stroke:#7b1fa2
    style ENC fill:#bbdefb
    style RELAY fill:#fff3e0,stroke:#e65100
    style DEC fill:#e8f5e9,stroke:#2e7d32

中继信道容量在一般情况下未知。

5.2 割集上界

定理（Cover-El Gamal 1979）：
$\boxed{C \leq \max_{p(x_1, x_2)} \min\!\Big\{I(X_1, X_2; Y_3),\; I(X_1; Y_2, Y_3 | X_2)\Big\}}$

两个割的物理含义

    graph TB
    subgraph CUT1["割1: (X₁,X₂) → Y₃ (合作MAC)"]
        S1["S = {源, 中继}"] -->|"合作"| D1["D = {目的}"]
    end
    subgraph CUT2["割2: X₁ → (Y₂,Y₃) (合作BC)"]
        S2["S = {源}"] -->|"广播"| D2["D = {中继, 目的}"]
    end

割1的逆定理证明

$\begin{aligned} nR &\leq I(M; Y_3^n) + n\epsilon_n \quad (\text{Fano}) \\ &= \sum_i I(M; Y_{3i} | Y_3^{i-1}) + n\epsilon_n \\ &\leq \sum_i I(M, Y_3^{i-1}; Y_{3i}) + n\epsilon_n \\ &\leq \sum_i I(M, X_2^i, Y_2^{i-1}, Y_3^{i-1}; Y_{3i}) + n\epsilon_n \\ &= \sum_i I(X_{1i}, X_{2i}; Y_{3i}) + n\epsilon_n \quad (\text{Markov性}) \\ &\leq n \max_{p(x_1,x_2)} I(X_1,X_2;Y_3) + n\epsilon_n \end{aligned}$

关键 Markov 性： $(M, Y_2^{i-1}, Y_3^{i-1}) \to (X_{1i}, X_{2i}) \to Y_{3i}$ （由信道无记忆保证）。

5.3 直接传输下界

$C \geq \max_{p(x_1, x_2)} I(X_1; Y_3 | X_2)$

中继不扮演主动角色（$X_2$ 固定或独立）。对反向退化 RC 是紧的。

5.4 多跳下界

$C \geq \max_{p(x_1)p(x_2)} \min\!\Big\{I(X_1; Y_2),\; I(X_2; Y_3 | X_1)\Big\}$

    graph LR
    X1["源 X₁"] -->|"第1跳: I(X₁;Y₂)"| Y2["中继 Y₂"]
    Y2 -->|"第2跳: I(X₂;Y₃)"| Y3["目的 Y₃"]

可达性——分组 Markov 编码：$b$ 个传输块发送 $b-1$ 个消息，中继在块 $j$ 中转发块 $j-1$ 中译出的消息。

1 2	消息: m₁ m₂ m₃ ... m_{b-1} 1 块: 1 2 3 ... b-1 b

5.5 协作多跳下界

$C \geq \max_{p(x_1, x_2)} \min\!\Big\{I(X_2; Y_3),\; I(X_1; Y_2 | X_2)\Big\}$

源和中继通过条件码本 $X_1^n(m_j|m_{j-1})$ 实现相干协作。

5.6 译码转发（DF）

定理（Cover-El Gamal 1979）：
$\boxed{C \geq \max_{p(x_1, x_2)} \min\!\Big\{I(X_1, X_2; Y_3),\; I(X_1; Y_2 | X_2)\Big\}}$

项	物理含义
$I(X_1; Y_2\vert X_2)$	中继译码条件——中继能可靠译出源消息的速率
$I(X_1, X_2; Y_3)$	目的译码条件——源+中继协作时目的的可靠速率

可达性——后向译码（Backward Decoding）

中继译码（前向）：块 $j$ 结束后，找 $\tilde{m}_j$ 满足联合典型条件 → $R < I(X_1; Y_2|X_2)$
目的译码（后向）：从块 $b$ 往前，已译出 $\hat{m}_{j+1}$ 后，利用 $(X_1^n(\hat{m}_{j+1}|\hat{m}_j), X_2^n(\hat{m}_j), Y_3^n(j+1))$ 译 $\hat{m}_j \to R < I(X_1, X_2; Y_3)$

紧条件

对物理退化 RC（$X_1 \to (Y_2, X_2) \to Y_3$），DF 下界 = 割集上界，容量已知。

DF 的局限

当中继比目的节点弱时（$I(X_1;Y_2|X_2) < I(X_1;Y_3|X_2=x_2)$），DF 甚至不如直接传输。

解决：部分 DF（只译码部分消息）或压缩转发（不译码，只量化转发）。

5.7 部分译码转发

将 $M = (M’, M’’)$：$M’$ 由中继译码并协作转发，$M’’$ 直接传输。

$C \geq \max_{p(u, x_1, x_2)} \min\!\Big\{I(X_1, X_2; Y_3),\; I(U; Y_2 | X_2) + I(X_1; Y_3 | X_2, U)\Big\}$

紧于半确定 RC 和正交发送分量 RC。

5.8 压缩转发（CF）

中继不译码——而是将 $Y_2$ 量化/压缩后转发（利用 Wyner-Ziv 编码）。

    graph TB
    SRC["源 X₁"] -->|"直接"| DST["目的 Y₃"]
    SRC -->|"中继链路"| REL["中继 Y₂"]
    REL -->|"压缩 Ŷ₂<br/>(Wyner-Ziv)"| REL2["中继 X₂"]
    REL2 -->|"X₂^n"| DST
    DST -->|"联合译码<br/>(Y₃ 作为边信息)"| DEC["恢复源消息"]
    style SRC fill:#e3f2fd
    style DST fill:#e8f5e9
    style REL fill:#fff3e0

定理（El Gamal-Mohseni-Zahedi 2006）：
$\boxed{C \geq \max_{p(x_1)p(x_2)p(\hat{y}_2|y_2,x_2)} \min\!\left\{\begin{aligned} &I(X_1, X_2; Y_3) - I(Y_2; \hat{Y}_2 | X_1, X_2, Y_3),\\ &I(X_1; \hat{Y}_2, Y_3 | X_2)\end{aligned}\right\}}$

项	物理含义
$I(X_1; \hat{Y}_2, Y_3\vert X_2)$	源到”增强目的”的速率
$I(Y_2; \hat{Y}_2\vert X_1,X_2,Y_3)$	压缩代价（Wyner-Ziv 速率损失）

策略选择指南

中继比目的强？
  ├── 是 → DF 或部分 DF
  └── 否 → CF（压缩转发）
            └── 中继极弱 → 直接传输

5.9 第五章核心公式

名称	公式
割集上界	$C \leq \max \min{I(X_1,X_2;Y_3),\; I(X_1;Y_2,Y_3\vert X_2)}$
直接传输下界	$C \geq \max I(X_1; Y_3 \vert X_2)$
多跳下界	$C \geq \max \min{I(X_1;Y_2),\; I(X_2;Y_3\vert X_1)}$
协作多跳下界	$C \geq \max \min{I(X_2;Y_3),\; I(X_1;Y_2\vert X_2)}$
DF 下界	$C \geq \max \min{I(X_1,X_2;Y_3),\; I(X_1;Y_2\vert X_2)}$
部分 DF 下界	$C \geq \max \min{I(X_1,X_2;Y_3),\; I(U;Y_2\vert X_2)+I(X_1;Y_3\vert X_2,U)}$
CF 下界	$C \geq \max \min{I(X_1,X_2;Y_3)-I(Y_2;\hat{Y}_2\vert X_1,X_2,Y_3),\; I(X_1;\hat{Y}_2,Y_3\vert X_2)}$

第六章干扰信道（IC）

6.1 系统模型

    graph TB
    M1["M₁"] --> ENC1["编码器1<br/>X₁^n(M₁)"]
    M2["M₂"] --> ENC2["编码器2<br/>X₂^n(M₂)"]
    ENC1 -->|"X₁^n"| CH["干扰信道<br/>p(y₁,y₂|x₁,x₂)"]
    ENC2 -->|"X₂^n"| CH
    CH -->|"Y₁^n"| DEC1["译码器1 → M̂₁"]
    CH -->|"Y₂^n"| DEC2["译码器2 → M̂₂"]
    style CH fill:#f3e5f5,stroke:#7b1fa2

IC 的容量区域在一般情况下未知。

6.2 三种点对点编码策略

所有策略使用相同的随机码本（独立生成 $X_1^n, X_2^n$，带时间共享 $Q$）。

(1) 将干扰视为噪声（IAN）

$R_1 < I(X_1; Y_1 | Q), \quad R_2 < I(X_2; Y_2 | Q)$

译码器忽略另一个用户的码字，只译自己的消息。适用于弱干扰。

(2) 同时译码（SD）

$\begin{aligned} R_1 &< \min\{I(X_1; Y_1 | X_2, Q),\; I(X_1; Y_2 | X_2, Q)\} \\ R_2 &< \min\{I(X_2; Y_2 | X_1, Q),\; I(X_2; Y_1 | X_1, Q)\} \\ R_1 + R_2 &< \min\{I(X_1, X_2; Y_1 | Q),\; I(X_1, X_2; Y_2 | Q)\} \end{aligned}$

每个译码器试图同时译出两个消息。适用于强干扰。

(3) 同时非唯一译码（SND）

$\begin{aligned} R_1 &< I(X_1; Y_1 | X_2, Q) \\ R_2 &< I(X_2; Y_2 | X_1, Q) \\ R_1 + R_2 &< \min\{I(X_1, X_2; Y_1 | Q),\; I(X_1, X_2; Y_2 | Q)\} \end{aligned}$

译码器 1 只需唯一确定 $\hat{m}_1$，允许 $m_2$ 不唯一确定（只要求存在某个 $m_2$ 使联合典型条件成立）。

SND 恒包含 SD 区域——因 SD 额外要求 $R_2 < I(X_2;Y_1|X_1,Q)$。

6.3 强干扰与极强干扰

定义对比

条件	定义	物理含义
极强干扰	$I(X_1;Y_1\vert X_2) \leq I(X_1;Y_2)$ 且对称（对所有 $p(x_1)p(x_2)$）	干扰链路比期望链路更好
强干扰	$I(X_1;Y_1\vert X_2) \leq I(X_1;Y_2\vert X_2)$ 且对称	已知自己输入时，干扰链路提供更多信息

极强 ⇒ 强，逆一般不成立。

强干扰容量区域（Costa-El Gamal 1987）

$\boxed{\begin{aligned} R_1 &< I(X_1; Y_1 | X_2, Q) \\ R_2 &< I(X_2; Y_2 | X_1, Q) \\ R_1 + R_2 &< \min\{I(X_1, X_2; Y_1 | Q),\; I(X_1, X_2; Y_2 | Q)\} \end{aligned}}$

$\vert \mathcal{Q}\vert \leq 4$。可达性：SND，强干扰条件下 SD 的额外约束自动满足。逆定理：利用 $I(X_1^n;Y_1^n|X_2^n) \leq I(X_1^n;Y_2^n|X_2^n)$（强干扰条件对任意 $n$ 成立）。

极强干扰容量区域

$\boxed{R_1 < I(X_1; Y_1 | X_2, Q), \quad R_2 < I(X_2; Y_2 | X_1, Q)}$

$\vert \mathcal{Q}\vert \leq 2$。无和速率约束——干扰完全不损害通信。可达方法：SC 译码（先译干扰、消除后再译自己的消息）。

高斯 IC 的 SNR/INR 判据（Sato 1981）

条件	SNR/INR 条件	容量
强干扰	$I_2 \geq S_1$ 且 $I_1 \geq S_2$	SND 区域
极强干扰	$S_2 \leq I_1/(1+S_1)$ 且 $S_1 \leq I_2/(1+S_2)$	$R_j < C(S_j)$（无干扰容量）

6.4 Han-Kobayashi 编码方案

速率分裂思想

    graph TB
    subgraph U1["用户1"]
        M1["M₁"] --> SPLIT1["速率分裂"]
        SPLIT1 --> M10["M₁₀ (公共) 速率 S₁"]
        SPLIT1 --> M11["M₁₁ (私密) 速率 T₁"]
    end
    subgraph U2["用户2"]
        M2["M₂"] --> SPLIT2["速率分裂"]
        SPLIT2 --> M20["M₂₀ (公共) 速率 S₂"]
        SPLIT2 --> M22["M₂₂ (私密) 速率 T₂"]
    end
    style U1 fill:#e3f2fd,stroke:#1565c0
    style U2 fill:#fff3e0,stroke:#e65100

消息	译码器1	译码器2
$M_{10}$（用户1公共）	译码	译码
$M_{11}$（用户1私密）	译码	视为噪声
$M_{20}$（用户2公共）	译码	译码
$M_{22}$（用户2私密）	视为噪声	译码

$R_1 = R_{10} + R_{11}, \quad R_2 = R_{20} + R_{22}$

H-K 内界定理（7个不等式）

$(R_1, R_2)$ 可达，若存在 $p(q)p(u_1,x_1|q)p(u_2,x_2|q)$ 满足：
$\boxed{\begin{aligned} R_1 &< I(X_1; Y_1 | U_2, Q) \\ R_2 &< I(X_2; Y_2 | U_1, Q) \\ R_1 + R_2 &< I(X_1, U_2; Y_1 | Q) + I(X_2; Y_2 | U_1, U_2, Q) \\ R_1 + R_2 &< I(X_2, U_1; Y_2 | Q) + I(X_1; Y_1 | U_1, U_2, Q) \\ R_1 + R_2 &< I(X_1, U_2; Y_1 | U_1, Q) + I(X_2, U_1; Y_2 | U_2, Q) \\ 2R_1 + R_2 &< I(X_1, U_2; Y_1 | Q) + I(X_1; Y_1 | U_1, U_2, Q) + I(X_2, U_1; Y_2 | U_2, Q) \\ R_1 + 2R_2 &< I(X_2, U_1; Y_2 | Q) + I(X_2; Y_2 | U_1, U_2, Q) + I(X_1, U_2; Y_1 | U_1, Q) \end{aligned}}$

$\vert \mathcal{U}_1\vert \leq \vert \mathcal{X}_1\vert +4$，$\vert \mathcal{U}_2\vert \leq \vert \mathcal{X}_2\vert +4$，$\vert \mathcal{Q}\vert \leq 7$。

7 个不等式来源于对 4 个中间速率变量 $(R_{10}, R_{11}, R_{20}, R_{22})$ 的 Fourier-Motzkin 消元。

译码器1错误分析表（8种情形）

情形	$m_{10}$	$m_{20}$	$m_{11}$	联合分布	Packing 条件
1	✓	✓	✓	$p(u_1,x_1)p(u_2)p(y_1\vert x_1,u_2)$	参考（正确）
2	✓	✗	✓	$p(u_1,x_1)p(u_2)p(y_1\vert u_1,u_2)$	$R_{20} < I(U_2;Y_1\vert U_1,X_1)$
3	✗	✓	✗	$p(u_1,x_1)p(u_2)p(y_1\vert u_2)$	$R_{10}+R_{11} < I(X_1;Y_1\vert U_2)$
4	✗	✓	✓	同情形3	同情形3
5	✓	✗	✗	$p(u_1,x_1)p(u_2)p(y_1\vert u_1)$	$R_{20}+R_{22} < I(X_2;Y_1\vert U_1)$
6	✗	✗	✓	$p(u_1,x_1)p(u_2)p(y_1)$	$R_{10}+R_{11}+R_{20} < I(X_1,U_2;Y_1)$
7	✗	✗	✗	同情形6	同情形6
8	✓	✗	✓	$p(u_1,x_1)p(u_2)p(y_1\vert x_1)$	不造成错误

6.5 高斯 IC 的半比特定理（Etkin-Tse-Wang 2008）

若 $(R_1, R_2)$ 属于高斯 IC 的外界 $\mathcal{R}_o$，则
$(R_1 - 1/2, R_2 - 1/2) \in \mathcal{R}_{\text{H-K}}$
H-K 内界距离容量区域至多 1/2 bit/维。

证明关键

将高斯 IC 表示为注入式半确定性 IC：

$T_1 = g_{21}X_1 + Z_2', \quad T_2 = g_{12}X_2 + Z_1', \quad Y_1 = g_{11}X_1 + T_2, \quad Y_2 = g_{22}X_2 + T_1$

需要证明 $I(X_j; T_j | U_j, Q) \leq 1/2$ 。取 $U_j = g_{j,3-j}X_j + Z_j'$ ：

$T_j - U_j = Z_j - Z_j'$

方差至多 2 → $h(T_j-U_j) - h(Z_j) \leq \frac{1}{2}\log 2 = \frac{1}{2}$

6.6 第六章核心公式

名称	公式
IAN 内界	$R_j < I(X_j; Y_j \vert Q)$
SND 内界	$R_j < I(X_j; Y_j \vert X_k, Q),\; R_1+R_2 < \min{I(X_1,X_2;Y_1\vert Q), I(X_1,X_2;Y_2\vert Q)}$
强干扰容量	SND 区域（$\vert \mathcal{Q}\vert \leq 4$）
极强干扰容量	$R_j < I(X_j; Y_j \vert X_k, Q)$（$\vert \mathcal{Q}\vert \leq 2$），无和速率约束
H-K 内界	7 个不等式（Fourier-Motzkin 消元结果）
高斯 IAN	$R_j < C(S_j/(1+I_j))$
半比特定理	$(R_1-1/2, R_2-1/2) \in \mathcal{R}_{\text{H-K}}$

附录

A.1 不等式缩放

技巧	使用场景
Union Bound	总错误概率 ≤ 各错误事件概率之和
Jensen	$D(P \vert Q) \geq 0, H(X) \leq \log\vert \mathcal{X}\vert$ 的证明
Fano 不等式	逆定理的起点：$nR \leq I(M;Y^n) + n\epsilon_n$
IT 不等式	$D(P \vert Q) \geq 0$ 的另一种证明方法
数据处理不等式	Markov 链中的信息降级
EPI	高斯信道的逆定理

A.2 单字母化的标准模板

1. Fano: nR ≤ I(M; Y^n) + nε_n
2. 链式展开: = Σ_i I(M; Y_i | Y^{i-1})
3. 识别辅助变量: U_i = (M, Y^{i-1}) 或变体
4. 验证 Markov 链: U_i → X_i → Y_i
5. 引入时间共享变量: Q ~ Unif[1:n]
6. 取 n→∞: R ≤ I(X; Y|U)

A.3 各章考点

考点	章节	证明核心
$D(P \vert Q) \geq 0$	Ch1	Jensen 不等式
$H(X) \leq \log\vert \mathcal{X}\vert$	Ch1	KL散度非负性
数据处理不等式	Ch1	链式法则 + Markov性
Fano 不等式	Ch1	条件熵展开 + 错误事件
联合典型概率界 $2^{-nI}$	Ch1	典型集大小 + 概率界
MAC 四类错误	Ch2	Union Bound + 联合典型界
退化 BC 逆定理（$U_i$ 构造）	Ch3	Fano + 链式法则 + 退化性
高斯 BC 逆定理（EPI）	Ch3	Fano + 条件 EPI + 连续性
DPC $\alpha^* = P/(P+1)$	Ch3	MMSE 正交性
GP 定理 $I(U;Y)-I(U;S)$	Ch3	Covering + Packing 联合
Slepian-Wolf 四类错误	Ch4	随机 Binning + 联合典型
Wyner-Ziv Compress-Bin	Ch4	Covering + Packing + FM 消元
割集上界（两个割）	Ch5	Fano + 链式法则 + Markov性
DF 后向译码	Ch5	条件码本 + $b$ 块分组 Markov
CF 压缩转发	Ch5	Wyner-Ziv + 分组 Markov
强干扰容量（SND）	Ch6	SND 译码 + Packing Lemma
H-K 8 种错误情形	Ch6	联合分布推导 + Packing Lemma
半比特定理	Ch6	$I(X_j;T_j\vert U_j) \leq 1/2$

A.4 备考策略

Ch1——Fano、$D(P|Q) \geq 0$、数据处理不等式、AEP、联合典型界，这些是解所有证明题的”基本语言”。
证明题：MAC 可达性（四类错误）、退化 BC 逆定理（$U_i$ 构造）、Slepian-Wolf 证明（四类错误）、割集上界——这四者最高频。
DPC：$\alpha^* = P/(P+1)$ 的推导和 MMSE 正交性理解。
H-K 7 不等式不需死记：理解公共/私密消息分裂逻辑和 8 种错误情形的联合分布推导即可。
高斯信道重在理解：容量公式会默写，EPI 用法理解即可。
工具链要烂熟：Fano → 链式法则 → Markov 性 → 单字母化，这条链在逆定理中反复出现。

第一章 引言与回顾 —— 熵、互信息、典型序列与信道容量

1.1 熵（Entropy）

定义

基本性质与证明

联合熵与条件熵

微分熵（连续随机变量）

1.2 相对熵（KL 散度）

定义

性质与证明

1.3 互信息（Mutual Information）

定义

等价形式

三种情形的互信息计算公式

熵与互信息的 Venn 图关系

条件互信息

性质与证明

1.4 四个核心不等式（证明工具箱）

(1) IT 不等式

(2) Jensen 不等式

(3) 数据处理不等式（Data Processing Inequality）

(4) Fano 不等式

(5) 熵功率不等式（EPI）

1.5 典型序列与 AEP

弱典型（熵-典型）序列

典型集的三个核心性质

联合典型与联合 AEP

强典型序列

1.6 信源编码

无损信源编码定理

Kraft 不等式（前缀码的充要条件）

最优码长

前缀信源编码定理

1.7 信道容量

DMC 定义

容量的双重定义

噪声信道编码定理

可达性证明框架（随机编码 + 联合典型译码）

逆定理框架（Fano + 链式法则——通用模板）

典型信道的容量公式

反馈容量

高斯信道

信源-信道分离定理

1.8 MIMO 信道

系统模型

SVD 分解——将 MIMO 化为并行标量信道

MIMO 容量一般表达式

注水算法（发射端已知信道 CSIT）

1.9 第一章核心公式速查

第二章 多址接入信道（MAC）

2.1 系统模型与核心特征

2.2 MAC 容量定理

容量区域形状（五边形）

2.3 可达性证明——同时译码 + 四类错误事件分析

四类错误的详细分析

总错误概率上界

2.4 时间共享与凸壳

2.5 逐次干扰消除（SIC）译码

2.6 高斯 MAC 容量区域

2.7 速率分裂（Rate-Splitting）

2.8 第二章核心公式速查

第三章 广播信道（BC）

3.1 系统模型

3.2 叠加编码内界（Cover 1972）

3.3 退化 BC 容量定理

Gallager 逆定理证明（考试核心）

3.4 高斯 BC 容量区域与 EPI 逆定理

可达性

逆定理（EPI 的应用）概要

3.5 Less Noisy 与 More Capable BC

3.6 Marton 编码方案

核心问题

码本构造

Marton 内界定理

3.7 Gelfand-Pinsker 问题与污纸编码（DPC）

问题设定

GP 定理

可达性——Binning 编码

DPC 推导（Costa 1983）——核心考点

DPC 的 MMSE 理解（更直观）

3.8 第三章核心公式速查

第一章引言与回顾 —— 熵、互信息、典型序列与信道容量

第二章多址接入信道（MAC）

第三章广播信道（BC）

第四章相关信源的编码

第五章中继信道（Relay Channels）

第六章干扰信道（IC）