Information Theory Note
Author : Benjamin142857
C.Shannon 在早期为研究信道通信提出了信息论,现代世界的发展很大贡献都源自信息论。
Content
- Entropy
- Information Gain
- Information Gain Ratio
Entropy - 熵
1948 年,香农提出了信息熵的概念,才解决了对信息的量化度量问题。
一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。
香农熵的定义是一种比较Heuristic的思想。
我们最开始是先来研究怎么区分信息间信息量大小。
假如我们用H来代表信息量的大小,那信息量的大小H和什么有关?举了例子:我们联想这样一个问题:
- 一个同学接到了一个电话,是他妈打过来的,和他说天气转冷,记得穿秋裤。(然后问这个同学,电话包含的信息量是多少?显然现在比较难准确回答)
- 然后这个同学又接到一个电话,是他导师打过来的,和他说他的论文被一所国外的知名大学选中了,现在获得了出国留学的名额(很明显,现在这个电话和第一个电话相比,信息量就感觉大很多)
由上述可知,第一通电话的概率很大,因为妈妈会经常打来电话给予关心,是比较规律性的行为,会让人觉得很平常,信息量较少。而第二通电话的概率一般是很小的,总会让人很意外,觉得突如其来的信息量很大,需要消化一下。
所以信息量的大小H就此和概率P有了联系,那我们就是要找一个函数来构建 H 与 P 的关系 H(P),它们需满足以下规则:
- 概率越大的事件所带来的信息量越小,所以H与P是成反比关系。
- 信息之间可以说是独立的,所以满足可加性。比如包含两个信息信息量的$H(P_1, P_2)$ 要等价于两个包含一个信息的信息量的叠加。 即$H(P_1, P_2) = H(P_1) + H(P_2)$
- 信息量大小是非负的,$H(P) ≥ 0$
综上规则,香农就把H(p)定义为以下关系:
$H(P) = -log_2(P)$
这个关系同时能满足:
- 因为加了负号,H与P成反比关系
- 符合叠加,对于对数函数,$H(P_1P_2) = H(P_1) + H(P_2)$
- $P∈[0, 1], H ∈ [0, +∞]$
那现在定义了 信息量大小H 与 信息概率P 之间的关系$H = -log_2(P)$后,我们要研究一个含有多个信息 的 信息系统 的 信息混乱程度,那我们只需就求这个信息系统的期望值即可,即HP
$E(H) = P_1H_1 + P_2H_2 + … +P_nH_n = \sum{(PH)} = \sum{(P · -log_2P)}$
这就是著名的香农熵Entropy:
$Entropy = -\sum_{i=1}^n[P(x_i)·log_2P(x_i)]$
附:Decision Tree 番外篇(一)- Entropy 与 IG 在DT中的意义Decision Tree 番外篇(一).md)
Information Gain - 信息增益
在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。