信息论 第一、二章:绪论和离散信源及其信息测度
1.1 信息的概念
香农信息的定义
定义:信息是事物运动状态或存在方式的不确定性的描述。
香农信息的度量
概率空间
概率空间:一个样本空间和它的概率测度,表示为:$[X,P]$。
在离散情况下,$X$的样本空间可写成$\{ a_1,a_2,…,a_q\}$。概率空间为:
$P(a_1)$称为先验概率。
自信息
定义的不确定性称为该消息(符号)$a_i$的自信息,即
互信息
条件概率$P(a_i|b_j)$称为后验概率。
互信息是收信者获得的信息量,即
通常也称概率信息。
2.1 信源的数学模型及分类
随机变量
随机变量$X$:描述信源输出的信息。
①. 离散信源:
②. 连续信源:
随机矢量
随机矢量$X$:信源输出的消息是按一定概率选取的符号序列。
离散无记忆信源$X$所输出的随机矢量构成的信源$X$称为离散无记忆信源$X$的$N$次扩展信源。
2.2 离散信源的信息熵
自信息
$P(a_i)$是事件$a_i$发生的先验概率。
单位:2,比特;e,奈特;10,哈特。
信息熵
即平均自信息量。
$H(P)$为熵函数。
性质:
①. 对称性
②. 确定性
③. 非负性
④. 扩展性
⑤. 可加性
这里的XY是联合分布(X,Y)的简略写法,不是乘积
⑥. 强可加性
⑦. 递增性
其中$\sum_{i=1}^np_i=1,\sum_{j=1}^mq_j=p_n$。
⑧. 极值性
⑨. 上凸性
2.5 离散无记忆的扩展信源
信源$X$的$N$次扩展信源$X^N$具有$q^N$个符号的离散信源,其$N$重概率空间为:
式中,$\alpha_i=(a_{i_1}a_{i_2}…a_{i_N})\quad (i_1,i_2,…,i_N=1,2,…,q)$
并满足:
$N$次扩展信源的熵:
2.6 离散平稳信源
数学定义
任意两个不同时刻信源输出符号的概率分布完全相同,则信源是完全平稳的,称为离散平稳信源。
二维离散平稳信源及其信息熵
设有一个二维离散平稳信源的概率空间为:
连续两个信源符号出现的联合概率分布:
联合熵:$H(X_1X_2)=-\sum_{i=1}^q\sum_{j=1}^qP(a_ia_j)\log P(a_ia_j)$
条件熵:$H(X_2|X_1)=-\sum_{i=1}^q\sum_{j=1}^qP(a_ia_j)\log P(a_j|a_i)$
2.8 信源剩余度与自然语言的熵
信源剩余度用来衡量信源的相关性程度:
熵的相对率:
信源剩余度: