目录
摘要Abstract第一章 绪论信息是什么信息、消息和信号的区别和联系信息论的研究内容通信系统模型
第二章 信息的度量最大熵定理吉布斯不等式(Gibbs' inequality)熵的可加性(链规则)菲诺不等式互信息条件互信息互信息的链规则互信息的凸性马尔科夫链
第三章 信道及信道容量信道模型二元对称信道二元删除信道信道容量对称信道DMC信道容量计算的一般方法
第四章 无失真信源编码定长编码定长编码定理码的分类变长编码D元哈夫曼编码的构造
第五章 有噪离散信道编码定理最大后验概率译码准则极大似然译码准则最小距离译码准则
总结
摘要
信息论在深度学习中扮演了多重角色,主要体现在设计损失函数(如交叉熵损失)、模型正则化(如信息瓶颈原理)、特征选择与降维(如互信息)、模型评估与解释(如信息增益)、数据压缩与表示(如自编码器)以及生成模型和强化学习的应用中。通过这些方法,信息论不仅帮助设计高效的模型和算法,还促进了对模型行为的理解和解释,提高了模型的鲁棒性和泛化能力。本文从信息的度量出发,总结了熵和互信息的各种性质和规则,引出了吉布斯不等式和菲诺不等式。本文的后半部分涉及了信道及信道容量,学习到了特殊信道和一般信道的信道容量求解方法以及信源和信道编码定理。
Abstract
Information theory plays multiple roles in deep learning, primarily manifested in the design of loss functions (such as cross-entropy loss), model regularization (such as the information bottleneck principle), feature selection and dimensionality reduction (such as mutual information), model evaluation and interpretation (such as information gain), data compression and representation (such as autoencoders), and applications in generative models and reinforcement learning. Through these methods, information theory not only helps in designing efficient models and algorithms but also promotes understanding and interpreting model behavior, enhancing model robustness and generalization capabilities. This article starts from the measurement of information, summarizing various properties and rules of entropy and mutual information, leading to the introduction of Gibbs’ inequality and Fano’s inequality. The second half of the article covers channels and channel capacity, discussing methods for solving channel capacity for both special and general channels, as well as source and channel coding theorems.
第一章 绪论
信息是什么
首先我们对信息论有个基础的概念:
信息论是一门应用近代概率统计方法来研究信息的传输和处理的科学。
那么到底什么是信息呢?如何衡量信息呢?
信息的定性描述:某一事件所含有的不确定性。
例如,天气预报说“明天可能有雨”这句话所提供的信息就是它所含有的不确定性。又比如“1+1=2”,这件事情是确定的,那么这句话的不确定性就是0,也就是说信息为0。
信息、消息和信号的区别和联系
消息:是信息的载体,即包含信息的事物(如数字、向量、语言、文字、图像、字母等等)。信号:消息的运载工具(电、光、热等)。信息:消息中不确定性的内容。
信息不同于消息,消息中包含有信息,是信息的载体。得到消息,从而获得信息。同一信息可用不同的消息形式来载荷。信息也不同于信号。信号携带消息,它是消息的运载工具,但它本身不是信息。信息、消息和信号是既有区别又有联系的。
信息论的研究内容
Shannon信息论研究的中心问题:
用概率统计的观点和方法研究通信系统,揭示了通信系统传递的对象就是信息,并对信息给以科学的定量描述,提出了信息熵的概念。指出了通信系统的中心问题是在噪声下如何有效而可靠地传递信息以及实现这一目标的主要方法是编码等,并在理论上证明了编码可以达到的最佳性能限。
信息论的研究内容,有以下三种解释:
信息论基础:亦称香农信息论或狭义信息论。主要研究信息的度量、信道容量、信息率失真函数,以及与这三个概念相对应的香农三定理以及信源和信道编码方法。
一般信息论:主要研究信息传输和处理问题。除了香农基本定理之外,还包括噪声理论,信号滤波和预测、统计检测与估计理论、调制理论。
广义信息论: 广义信息论是一门综合性的新兴学科,至今并没有严格的定义。概括说来,凡是能够用广义通信系统模型描述的过程或系统,都能用信息基本理论来研究。
通信系统模型
第二章 信息的度量
信源是产⽣信息的来源,它⼀般以符号的形式发出消息。⽽信息是消息中所含有的不确定性内容。信源发出的包含信息的符号常常是随机的,常可以⽤随机变量或随机向量来表示。
单符号 DMS 的输出可⽤随机变量来描述,其数学模型(mathematical model)⼀般可表示为:
[
X
P
]
=
[
x
1
x
2
⋯
x
n
p
(
x
1
)
p
(
x
2
)
⋯
p
(
x
n
)
]
\begin{bmatrix} X \\ P \end{bmatrix} = \begin{bmatrix} x_1 & x_2 & \cdots & x_n \\ p(x_1) & p(x_2) & \cdots & p(x_n) \end{bmatrix}
[XP]=[x1p(x1)x2p(x2)⋯⋯xnp(xn)]
[
p
(
x
i
)
≥
0
,
∑
i
=
1
n
p
(
x
i
)
=
1
]
[ p(x_i) \geq 0, \sum_{i=1}^{n} p(x_i) = 1 ]
[p(xi)≥0,i=1∑np(xi)=1]
例如: A—早上出⻔看⻅⼀个⼩⼥孩; B—抛硬币出现正⾯; C—掷⼀枚骰⼦出现六点。
上述三个事件都是随机事件,都含有⼀定的不确定性。
直观上我们可以想到,某件事发生的概率越大,其不确定性就越小,携带的信息就越小。若这件事情百分百发生,那就没有不确定性了,携带的信息就为0。
也可以这么理解:假设我给你传递消息“人活不到一亿岁”,这句话完全就是一句废话,也就是说不提供任何信息量。
也就是说,概率和信息成反比。
因此我们可以用数学的语言来定义信息量。
由于我们想要信息量满足非负性、可加性和负相关,因此我们可以定义为:
为了刻画平均信息量,引入了信息熵(Information Entropy)的概念: 33
最大熵定理
信源X包含n个不同离散消息时,信源熵
H
(
X
)
H (X)
H(X) 有: 最大熵定理说明了数据压缩具有极限。信息熵越大说明信息所携带的不确定性越大,冗余就越小。冗余指的是信息中不必要的重复部分,这些部分并不提供新的信息。
当信息熵高时,每个符号出现的概率分布较为均匀,这意味着每个符号都携带了相对较多的新信息。因此,这种信息源产生的数据中冗余较少。相反,当信息熵低时,某些符号出现的概率非常高,而其他符号出现的概率很低。这种情况下,信息源产生的数据中会有大量的重复和冗余信息,因为一些符号频繁出现,而其他符号很少出现。
吉布斯不等式(Gibbs’ inequality)
对于两个离散概率分布
P
=
{
p
1
,
p
2
,
…
,
p
n
}
P = \{p_1, p_2, \ldots, p_n\}
P={p1,p2,…,pn} 和
Q
=
{
q
1
,
q
2
,
…
,
q
n
}
Q = \{q_1, q_2, \ldots, q_n\}
Q={q1,q2,…,qn},满足
p
i
≥
0
,
q
i
≥
0
,
i
=
1
,
2
,
…
,
n
p_i \geq 0, \quad q_i \geq 0, \quad i = 1, 2, \ldots, n
pi≥0,qi≥0,i=1,2,…,n,且
∑
i
=
1
n
p
i
=
∑
i
=
1
n
q
i
=
1
\sum_{i=1}^n p_i = \sum_{i=1}^n q_i = 1
∑i=1npi=∑i=1nqi=1,有
−
∑
i
=
1
n
p
i
log
p
i
≤
−
∑
i
=
1
n
p
i
log
q
i
-\sum_{i=1}^n p_i \log p_i \leq -\sum_{i=1}^n p_i \log q_i
−i=1∑npilogpi≤−i=1∑npilogqi
吉布斯不等式表明,一个概率分布的信息熵总是小于或等于它相对于另一个概率分布的交叉熵。
交叉熵
H
(
P
,
Q
)
H(P, Q)
H(P,Q):定义为
H
(
P
,
Q
)
=
−
∑
i
=
1
n
p
i
log
q
i
H(P, Q) = -\sum_{i=1}^n p_i \log q_i
H(P,Q)=−∑i=1npilogqi,表示用概率分布
Q
Q
Q 来编码概率分布
P
P
P 所需的平均比特数。
熵的可加性(链规则)
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
H
(
X
,
Y
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
\begin{aligned} H(X,Y)=H(X)+H(Y|X)\\ H(X,Y)=H(Y)+H(X|Y) \end{aligned}
H(X,Y)=H(X)+H(Y∣X)H(X,Y)=H(Y)+H(X∣Y)
特别的,当X和Y独立时有
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
H(X,Y)=H(X)+H(Y)
H(X,Y)=H(X)+H(Y)
菲诺不等式
其中,
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y)代表确定Y时X的的平均不确定性,这个值代表了信息传输过程中的信息损失。若信息无损,那么确定Y时X的平均不确定性就是0。信息损失越大,说明确定Y时X的平均不确定性就越大,
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y)就越大。
菲诺不等式可以视为:
H
(
X
∣
Y
)
≤
误差的不确定性
+
确定真实符号需要消除的不确定性
H(X|Y)≤误差的不确定性+确定真实符号需要消除的不确定性
H(X∣Y)≤误差的不确定性+确定真实符号需要消除的不确定性
与互信息的对比: 互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y)表示了从Y中获取关于X的信息量,也可以看作是两个随机变量共享的信息量。而
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y)表示的时确定了Y之后X的条件熵,也就是说
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)。
菲诺不等式(Fano’s Inequality)是信息论中的一个基本结果,它描述了通信信道中错误概率与互信息之间的关系。
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)代入菲诺不等式可得:
I
(
X
;
Y
)
≥
H
(
X
)
−
H
b
(
P
e
)
−
P
e
log
(
∣
X
∣
−
1
)
I(X; Y) \geq H(X) - H_b(P_e) - P_e \log(|\mathcal{X}| - 1)
I(X;Y)≥H(X)−Hb(Pe)−Pelog(∣X∣−1) 这个不等式表明,如果我们希望从Y中获取X的信息量大,就需要尽量减小解码错误的概率
P
e
P_e
Pe ,因为错误概率的增加会导致从输出 Y 中获取关于输入 X 的信息量减少。菲诺不等式对于研究信道编码理论、数据压缩等领域具有重要的意义。
互信息
设离散型随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 有联合分布
p
(
x
,
y
)
p(x, y)
p(x,y) 和边缘分布
p
(
x
)
p(x)
p(x) 与
p
(
y
)
p(y)
p(y)。互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y) 是联合分布
p
(
x
,
y
)
p(x, y)
p(x,y) 与边缘分布的乘积
p
(
x
)
p
(
y
)
p(x)p(y)
p(x)p(y) 的相对熵,即
I
(
X
;
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
D
(
p
(
x
,
y
)
∥
p
(
x
)
p
(
y
)
)
=
E
p
(
x
,
y
)
log
p
(
X
,
Y
)
p
(
X
)
p
(
Y
)
\begin{aligned} I(X;Y) &= \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &= D(p(x,y) \| p(x)p(y)) \\ &= E_{p(x,y)} \log \frac{p(X,Y)}{p(X)p(Y)} \end{aligned}
I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=D(p(x,y)∥p(x)p(y))=Ep(x,y)logp(X)p(Y)p(X,Y)
条件互信息
条件互信息(Conditional Mutual Information, CMI)是信息论中的一个重要概念,用于衡量在给定第三个随机变量的情况下,两个随机变量之间的依赖关系。
条件互信息
I
(
X
;
Y
∣
Z
)
I(X; Y | Z)
I(X;Y∣Z) 定义为:
I
(
X
;
Y
∣
Z
)
=
H
(
X
∣
Z
)
−
H
(
X
∣
Y
,
Z
)
I(X; Y | Z) = H(X | Z) - H(X | Y, Z)
I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)
这里:
H
(
X
∣
Z
)
H(X | Z)
H(X∣Z) 是给定
Z
Z
Z 的条件下
X
X
X 的条件熵
H
(
X
∣
Y
,
Z
)
H(X | Y, Z)
H(X∣Y,Z) 是给定
Y
Y
Y 和
Z
Z
Z 的条件下
X
X
X 的条件熵
互信息的链规则
设
X
1
,
X
2
,
…
,
X
n
X_1, X_2, \ldots, X_n
X1,X2,…,Xn 是一组随机变量,互信息的链规则可以表示为:
I
(
X
1
,
X
2
,
…
,
X
n
;
Y
)
=
∑
i
=
1
n
I
(
X
i
;
Y
∣
X
i
−
1
,
X
i
−
2
,
…
,
X
1
)
I(X_1, X_2, \ldots, X_n ; Y) = \sum_{i=1}^{n} I(X_i ; Y | X_{i-1}, X_{i-2}, \ldots, X_1)
I(X1,X2,…,Xn;Y)=∑i=1nI(Xi;Y∣Xi−1,Xi−2,…,X1)
其中,
I
(
X
1
,
X
2
,
…
,
X
n
;
Y
)
I(X_1, X_2, \ldots, X_n ; Y)
I(X1,X2,…,Xn;Y) 是所有变量
X
1
,
X
2
,
…
,
X
n
X_1, X_2, \ldots, X_n
X1,X2,…,Xn 与变量
Y
Y
Y 之间的互信息。
I
(
X
i
;
Y
∣
X
i
−
1
,
X
i
−
2
,
…
,
X
1
)
I(X_i ; Y | X_{i-1}, X_{i-2}, \ldots, X_1)
I(Xi;Y∣Xi−1,Xi−2,…,X1) 是在给定前
i
−
1
i-1
i−1 个变量
X
1
,
X
2
,
…
,
X
i
−
1
X_1, X_2, \ldots, X_{i-1}
X1,X2,…,Xi−1 的条件下,第
i
i
i 个变量
X
i
X_i
Xi 与
Y
Y
Y 之间的条件互信息。
互信息的链规则告诉我们,一组随机变量与另一个变量之间的总互信息可以通过逐个考虑每个变量与该变量之间的条件互信息来累加获得。这意味着,当我们逐渐引入更多的变量时,每一步都增加了新的信息贡献,直到所有的变量都被考虑到为止。
互信息的凸性
设
(
X
,
Y
)
∼
p
(
x
,
y
)
=
p
(
x
)
p
(
y
∣
x
)
(X, Y)\sim p(x, y) = p(x)p(y|x)
(X,Y)∼p(x,y)=p(x)p(y∣x),则
(1)对于给定的条件概率分布
p
(
y
∣
x
)
p(y|x)
p(y∣x),互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y) 是分布
p
(
x
)
p(x)
p(x) 的上凸函数;(2)对于给定的概率分布
p
(
x
)
p(x)
p(x),互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y) 是条件概率分布
p
(
y
∣
x
)
p(y|x)
p(y∣x) 的下凹函数。
互信息的凸性和凹性在信息理论和统计推断中具有重要作用。具体而言:
上凸性:互信息作为输入分布
p
(
x
)
p(x)
p(x) 的上凸函数,意味着在给定条件概率分布
p
(
y
∣
x
)
p(y|x)
p(y∣x) 下,互信息不会随着输入分布的变化而无限制增加。这种性质确保了在优化问题中,如最大似然估计或最小化风险等,存在唯一的最优解。
下凹性:互信息作为条件概率分布
p
(
y
∣
x
)
p(y|x)
p(y∣x) 的下凹函数,意味着在给定输入分布
p
(
x
)
p(x)
p(x) 下,互信息不会随着条件概率分布的变化而无限制减少。这种性质同样保证了在相关优化问题中,存在唯一的最优解。
这些性质使得互信息成为许多信息理论和机器学习算法的基础,特别是在涉及模型拟合、特征选择和信息瓶颈等问题时,能够提供有效的解决方案。
马尔科夫链
称随机变量
X
,
Y
,
Z
X, Y, Z
X,Y,Z 形成马尔可夫链
X
→
Y
→
Z
X \rightarrow Y \rightarrow Z
X→Y→Z。若
Z
Z
Z 的分布仅依依赖于
Y
Y
Y 而与
X
X
X 条件独立。特别地,若联合概率能写成如下形式:
p
(
x
,
y
,
z
)
=
p
(
x
)
p
(
y
∣
x
)
p
(
z
∣
y
)
.
p(x, y, z) = p(x) p(y | x) p(z | y).
p(x,y,z)=p(x)p(y∣x)p(z∣y). 则称
X
,
Y
,
Z
X, Y, Z
X,Y,Z 形成马尔可夫链
X
→
Y
→
Z
X \rightarrow Y \rightarrow Z
X→Y→Z,则
I
(
X
;
Y
)
≥
I
(
X
;
Z
)
I
(
Y
;
Z
)
≥
I
(
X
;
Z
)
I(X;Y)≥I(X;Z)\\I(Y;Z)≥I(X;Z)
I(X;Y)≥I(X;Z)I(Y;Z)≥I(X;Z) 其实上式也很好理解,由于Y的分布依赖于X,且Z与X独立,那么从Z中获取关于X的信息量肯定为0,而
I
(
X
;
Y
)
≥
0
I(X;Y)≥0
I(X;Y)≥0。
第三章 信道及信道容量
信道模型
消息长度为1的通信信道模型: 消息长度为n的通信信道模型:
离散无记忆信道的定义
若离散信道对任意长为
N
N
N的输入序列
x
\boldsymbol{x}
x和输出序列
y
\boldsymbol{y}
y,有
p
(
y
∣
x
)
=
p
(
y
1
,
y
2
,
…
,
y
N
∣
x
1
,
x
2
,
…
,
x
N
)
=
∏
n
=
1
N
p
(
y
n
∣
x
n
)
p(\boldsymbol{y}|\boldsymbol{x}) = p(y_1,y_2,\dots,y_N|x_1,x_2,\dots,x_N) = \prod_{n=1}^N p(y_n|x_n)
p(y∣x)=p(y1,y2,…,yN∣x1,x2,…,xN)=n=1∏Np(yn∣xn) 则称它为离散无记忆信道 (Discrete Memoryless Channel)。以
p
(
y
n
∣
x
n
)
p(y_n|x_n)
p(yn∣xn)表示,其中
{
X
,
p
(
y
n
∣
x
n
)
,
Y
}
\{\mathcal{X}, p(y_n|x_n), \mathcal{Y}\}
{X,p(yn∣xn),Y}是信道第
n
n
n个时刻输入为
x
n
x_n
xn,输出为
y
n
y_n
yn的条件概率或转移概率。
注意,⽆记忆意味着在任何时刻信道的输出只与此时刻的输⼊有关,⽽与以前的输⼊和输出⽆关,也就是说某时刻的
y
n
y_n
yn只和
x
n
x_n
xn有关。
平稳的定义
对任意正整数
n
n
n 和
m
m
m 及
x
∈
X
x \in \mathfrak{X}
x∈X 和
y
∈
Y
y \in \mathfrak{Y}
y∈Y ,若DMC满足
P
(
Y
n
=
y
∣
X
n
=
x
)
=
P
(
Y
m
=
y
∣
X
m
=
x
)
P(Y_n = y \mid X_n = x) = P(Y_m = y \mid X_m = x)
P(Yn=y∣Xn=x)=P(Ym=y∣Xm=x) 则称此离散无记忆信道是平稳的或恒参的。
二元对称信道
二元删除信道
信道容量
由第二章互信息的凸性中可知X和Y的互信息是关于
p
(
x
)
p(x)
p(x)的上凸函数,也就是说互信息关于
p
(
x
)
p(x)
p(x)有最大值。而互信息又代表着从Y中获得关于X的信息量,那么从Y中获得关于X的信息量越高说明这个通信系统表现就越好,因此每个固定信道都有⼀个最⼤的信息传输率。
于是我们可以把离散⽆记忆信道DMC的信道容量定义为
C
=
max
{
p
(
x
)
}
I
(
X
;
Y
)
C = \max_{\{p(x)\}} I(X;Y)
C={p(x)}maxI(X;Y)
即C为改变信道的输⼊分布时,使每个符号所能含有的平均互信息量的最⼤值,也就是信道允许通过的最⼤信息传输率。达到最⼤值的输⼊分布称为最佳分布。
对称信道
对称信道 每⼀⾏是第⼀⾏的置换,每⼀列是第⼀列的置换。
C
=
log
∣
Y
∣
+
∑
y
p
(
y
∣
x
)
log
p
(
y
∣
x
)
=
log
∣
Y
∣
−
H
(
p
1
′
,
p
2
′
,
…
,
p
m
′
)
C = \log |\mathcal{Y}| + \sum_y p(y | x) \log p(y | x) \\ = \log |\mathcal{Y}| - H(p_1', p_2', \ldots, p_m')
C=log∣Y∣+y∑p(y∣x)logp(y∣x)=log∣Y∣−H(p1′,p2′,…,pm′)
其中,
(
p
1
′
,
p
2
′
,
…
,
p
m
′
)
(p_1', p_2', \ldots, p_m')
(p1′,p2′,…,pm′) 是转移概率矩阵的第一行的元素。
准对称信道 将转移概率矩阵划分成多个子矩阵,每个子矩阵满足对称信道的要求。
C
=
I
(
X
=
x
;
Y
)
=
∑
y
p
(
y
∣
x
)
log
p
(
y
∣
x
)
p
(
y
)
C=I(X=x;Y) =\sum_y p(y | x) \log \frac{p(y | x)}{p(y)}
C=I(X=x;Y)=y∑p(y∣x)logp(y)p(y∣x)
弱对称信道 每⼀⾏是第⼀⾏的置换,每⼀列的和相等。
C
=
log
∣
Y
∣
+
∑
y
p
(
y
∣
x
)
log
p
(
y
∣
x
)
=
log
∣
Y
∣
−
H
(
p
1
′
,
p
2
′
,
…
,
p
m
′
)
C = \log |\mathcal{Y}| + \sum_y p(y | x) \log p(y | x) \\ = \log |\mathcal{Y}| - H(p_1', p_2', \ldots, p_m')
C=log∣Y∣+y∑p(y∣x)logp(y∣x)=log∣Y∣−H(p1′,p2′,…,pm′)
其中,
(
p
1
′
,
p
2
′
,
…
,
p
m
′
)
(p_1', p_2', \ldots, p_m')
(p1′,p2′,…,pm′) 是转移概率矩阵的第一行的元素。
强对称信道 在对称信道的基础上,输入和输出的个数相等。
对称信道不一定是强对称信道,但是一定是弱对称信道和准对称信道。
DMC信道容量计算的一般方法
第四章 无失真信源编码
通信的根本任务是:有效⽽可靠的传递信息
实现的⽅法:编码
要如何理解呢?
首先我们要知道信道容量有一个大小,所以为了有效传输数据我们必须要先把信源发出的消息进行压缩,也就是说要去冗余,使得其信息量最大。注意,信息量和消息大小并不挂钩,并不是说信息量大的消息发送时占信道容量的大小越大,信息量仅仅衡量信息的不确定性。信息量大说明冗余小,反而说明信息所占用的数据量大小减少了。
一个不规范的总结: X称为消息,Y称为码。
以上只是为了方便好记,实际上信源发出的一个长向量
x
⃗
\vec x
x
才是消息,例如
x
⃗
=
(
1
,
1
,
0
,
1
,
0
,
0
,
1
)
\vec x=(1,1,0,1,0,0,1)
x
=(1,1,0,1,0,0,1)。对这个
x
⃗
\vec x
x
的译码结果
f
(
x
⃗
)
f(\vec x)
f(x
)才是码。
定长编码
例:对一万个汉字进行编码
(1)
X
=
{
一万个汉字
}
\quad \mathfrak{X} = \{\text{一万个汉字}\}
X={一万个汉字},
D
=
{
0
,
1
,
2
,
.
.
.
,
9
}
\mathfrak{D} = \{0, 1, 2, ..., 9\}
D={0,1,2,...,9}
首先要确定消息字母集、消息长度和码字母集、码字长度,可知 消息字母集
r
=
10000
r=10000
r=10000,消息长度
L
=
1
L=1
L=1,码字母集
D
=
10
D=10
D=10,码字长度为
n
n
n
由唯一可译可知
r
L
≤
D
n
r^L≤D^n
rL≤Dn,因此
n
≥
L
log
r
log
D
=
log
1
0
4
log
10
=
4
n \geq L \frac{\log r}{\log D} = \frac{\log 10^4}{\log 10} = 4
n≥LlogDlogr=log10log104=4
(2)
X
=
{
0
,
1
,
2
,
L
,
9
}
,
D
=
B
2
=
{
0
,
1
}
\mathfrak{X} = \{0, 1, 2, L, 9\}, \mathfrak{D} = B_2 = \{0, 1\}
X={0,1,2,L,9},D=B2={0,1}
同理可知:
r
=
10
,
D
=
2
,
L
=
1
r=10, D=2, L=1
r=10,D=2,L=1
n
≥
L
log
r
log
D
=
log
10
≈
3.32
n \geq L \frac{\log r}{\log D} = \log 10 \approx 3.32
n≥LlogDlogr=log10≈3.32
定长编码定理
随着消息序列长度的增加,每个消息字母的平均编码长度会趋近于理论上的最小值,即这个⽆记忆信源的公共分布熵
H
(
X
)
H(X)
H(X)。
码的分类
若不同的消息对应同⼀个码字,这样的码称为奇异码(singular code),否则称为⾮奇异码(non-singular code)。如果对任意联接起来的⼀列码字序列,都能唯⼀地分解原来的码字,这种码称为唯⼀可译码(单义码)。若任何⼀个码字都不能添加成另⼀个码字,则称此码为前束码(⾮续⻓码) (prefix code)。⼀个码是即时码当且仅当此码是前束码。
变长编码
使得编码唯一可译且无失真要用到克拉夫特不等式。 注意,Kraft不等式只是⽤来说明唯⼀可译码是否存在,并不能作为唯⼀可译码的判据。如码{0,10,010,111},虽然满⾜Kraft不等式,但它不是唯⼀可译码。然⽽,我们可以构造⼀个码字⻓度分别为1,2,3,3的⼆元唯⼀可译码。
D元哈夫曼编码的构造
首先求
(
i
−
1
)
%
(
D
−
1
)
=
k
(i-1)\%(D-1)=k
(i−1)%(D−1)=k,其中i是信源发出x的个数,D为码子母集的大小。若k不等于0,我们在构建哈夫曼树的时候就要补k个0。
第五章 有噪离散信道编码定理
如何理解n次拓展信道?
求平均误差概率:
实际上解法很简单,就是根据译码规则,当x发生的时候,y没有对应上译码规则的概率。
最大后验概率译码准则
先求后验概率矩阵,然后找到当y固定时后验概率最大的x就是我们想要的编码。也就是说我们找一列的最大值。注意,由于最大后验概率译码等效于联合概率译码,实际上我们也不需要把后验概率矩阵求出,只需要求出联合概率矩阵即可。
极大似然译码准则
直接找每一列对应的最大值即可。
最小距离译码准则
汉明距离为一个码中不相等字符的个数,例如:
总结
信息论是研究信息量化、存储、传输和处理的一门学科,由克劳德·香农在1948年创立。它在深度学习中有多个应用场景:比如通过数据压缩减少存储和传输成本;利用信息增益进行特征选择,优化模型结构;通过正则化技术减少模型复杂度,防止过拟合;以及借助信息瓶颈理论理解并优化神经网络内部的信息流动。此外,信息论还为对抗性学习提供了理论支持,帮助生成对抗网络(GANs)提高生成数据的质量。信息论不仅为深度学习提供了理论基础,还在实践中起到了关键作用。