Information Theory Note

2018-07-10

Information Theory Note

Author : Benjamin142857

C.Shannon 在早期为研究信道通信提出了信息论，现代世界的发展很大贡献都源自信息论。

Content

Entropy

Information Gain

Information Gain Ratio

Entropy - 熵

1948 年，香农提出了信息熵的概念，才解决了对信息的量化度量问题。

一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。

香农熵的定义是一种比较Heuristic的思想。

我们最开始是先来研究怎么区分信息间信息量大小。

假如我们用H来代表信息量的大小，那信息量的大小H和什么有关？举了例子：我们联想这样一个问题：

一个同学接到了一个电话，是他妈打过来的，和他说天气转冷，记得穿秋裤。（然后问这个同学，电话包含的信息量是多少？显然现在比较难准确回答）

然后这个同学又接到一个电话，是他导师打过来的，和他说他的论文被一所国外的知名大学选中了，现在获得了出国留学的名额（很明显，现在这个电话和第一个电话相比，信息量就感觉大很多）

由上述可知，第一通电话的概率很大，因为妈妈会经常打来电话给予关心，是比较规律性的行为，会让人觉得很平常，信息量较少。而第二通电话的概率一般是很小的，总会让人很意外，觉得突如其来的信息量很大，需要消化一下。

所以信息量的大小H就此和概率P有了联系，那我们就是要找一个函数来构建 H 与 P 的关系 H(P)，它们需满足以下规则：

概率越大的事件所带来的信息量越小，所以H与P是成反比关系。

信息之间可以说是独立的，所以满足可加性。比如包含两个信息信息量的$H(P_1, P_2)$ 要等价于两个包含一个信息的信息量的叠加。即$H(P_1, P_2) = H(P_1) + H(P_2)$

信息量大小是非负的，$H(P) ≥ 0$

综上规则，香农就把H(p)定义为以下关系：

$H(P) = -log_2(P)$

这个关系同时能满足：

因为加了负号，H与P成反比关系

符合叠加，对于对数函数，$H(P_1P_2) = H(P_1) + H(P_2)$

$P∈[0, 1], H ∈ [0, +∞]$

那现在定义了 信息量大小H 与 信息概率P 之间的关系$H = -log_2(P)$后，我们要研究一个含有多个信息 的 信息系统 的 信息混乱程度，那我们只需就求这个信息系统的期望值即可，即HP

$E(H) = P_1H_1 + P_2H_2 + … +P_nH_n = \sum{(PH)} = \sum{(P · -log_2P)}$

这就是著名的香农熵Entropy:

$Entropy = -\sum_{i=1}^n[P(x_i)·log_2P(x_i)]$

附：Decision Tree 番外篇（一）- Entropy 与 IG 在DT中的意义Decision Tree 番外篇(一).md)

Information Gain - 信息增益

在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。