信息论 第一、二章:绪论和离散信源及其信息测度


信息论 第一、二章:绪论和离散信源及其信息测度

1.1 信息的概念

香农信息的定义

定义:信息是事物运动状态或存在方式的不确定性的描述。

香农信息的度量

概率空间

概率空间:一个样本空间和它的概率测度,表示为:$[X,P]$。

在离散情况下,$X$的样本空间可写成$\{ a_1,a_2,…,a_q\}$。概率空间为:

$P(a_1)$称为先验概率

自信息

定义的不确定性称为该消息(符号)$a_i$的自信息,即

互信息

条件概率$P(a_i|b_j)$称为后验概率

互信息是收信者获得的信息量,即

通常也称概率信息

2.1 信源的数学模型及分类

随机变量

随机变量$X$:描述信源输出的信息。

①. 离散信源:

②. 连续信源:

随机矢量

随机矢量$X$:信源输出的消息是按一定概率选取的符号序列。

离散无记忆信源$X$所输出的随机矢量构成的信源$X$称为离散无记忆信源$X$的$N$次扩展信源

2.2 离散信源的信息熵

自信息

$P(a_i)$是事件$a_i$发生的先验概率。

单位:2,比特;e,奈特;10,哈特。

信息熵

即平均自信息量。

$H(P)$为熵函数。

性质

①. 对称性

②. 确定性

③. 非负性

④. 扩展性

⑤. 可加性

这里的XY是联合分布(X,Y)的简略写法,不是乘积

⑥. 强可加性

⑦. 递增性

其中$\sum_{i=1}^np_i=1,\sum_{j=1}^mq_j=p_n$。

⑧. 极值性

⑨. 上凸性

2.5 离散无记忆的扩展信源

信源$X$的$N$次扩展信源$X^N$具有$q^N$个符号的离散信源,其$N$重概率空间为:

式中,$\alpha_i=(a_{i_1}a_{i_2}…a_{i_N})\quad (i_1,i_2,…,i_N=1,2,…,q)$

并满足:

$N$次扩展信源的熵:

2.6 离散平稳信源

数学定义

任意两个不同时刻信源输出符号的概率分布完全相同,则信源是完全平稳的,称为离散平稳信源。

二维离散平稳信源及其信息熵

设有一个二维离散平稳信源的概率空间为:

连续两个信源符号出现的联合概率分布:

联合熵:$H(X_1X_2)=-\sum_{i=1}^q\sum_{j=1}^qP(a_ia_j)\log P(a_ia_j)$

条件熵:$H(X_2|X_1)=-\sum_{i=1}^q\sum_{j=1}^qP(a_ia_j)\log P(a_j|a_i)$

2.8 信源剩余度与自然语言的熵

信源剩余度用来衡量信源的相关性程度:

熵的相对率

信源剩余度


文章作者: Mat Jenin
文章链接: http://matjenin.xyz
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Mat Jenin !
  目录