广义信息熵(generalized information entropy)

信息论之父香农(C. E. Shannon) 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。香农借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,用信息熵的概念来描述信息源的不确定度。

信息熵 (Information & Entropy)

举例:从箱子里选三种颜色的球,需要信息表示长度(2进制)。如下图所示

信息公式:

$$I(p)=-log_b (p)$$ 注:概率越大,信息长度越短,所以公式-log

p是事件发生的概率,b是底数(2是常用的底数)

$$I(red ball)=-log(4/9)=1.1699 bits$$

$$I(yellow ball)=-log(2/9)=2.1699 bits$$

$$I(green ball)=-log(3/9)=1.58496 bits$$

熵Entropy: 是一个简单的信息数量的平均数。Entropy is simply the average (expected) amount of the information from the event.

$$Entropy=- \sum_{i=1}^{n} p_ilog_b (p_i)$$ n是不同结果的数量

在上面的例子中,n=3 (green, yellow, red)

$$Entropy=- \sum_{i=1}^{n} p_ilog_b (p_i)=-(4/9)log(4/9)-(2/9)log(2/9)-(3/9)log(3/9)=1.5304755$$

熵值说明:每次从垃圾箱中选择一个球时,您都需要获得1.5304755的信息

$$I=- \sum_{i=1}^{n} (Np_i)log_b (p_i)$$ $$Np_i$$表示确定性结果在N中出现的近似数。

所以当你看到N个事件的总信息和熵方程之间的差异时,只有在N处发生了变化.N向右移动,这意味着I / N是熵。 因此,熵是某一事件中平均(预期)的信息量。

熵值并不是0-1之间,而是$$0 \leqslant Entropy \leqslant log(n)$$

  • 当有一个节果的概率为1,其他结果的概率都为0,则熵值为最小0
  • 当所有结果的概率相同,则熵值最大为$$log(n)$$

关于信息熵的参考文献:

http://csustan.csustan.edu/~tom/sfi-csss/info- theory/info-lec.pdf (15-34页)

http://ee.stanford.edu/~gray/it.pdf

广义熵 (generalized information entropy)

信息熵用于度量多样性(diversity)。当分布越多样(平均),熵值越大。越集中,熵值越小。

在群体模型的融合问题中,可以用熵来度量这种多样性。对于群体集中(共识),熵值越小越好。

举例:下图是一个群体模型的融合状态,虚线画出的点要度量群体共识的多样性分布。

定义1:节点群体观点的状态(state),节点的融合状态可以用离散随机变量$$X$$来表示,$$X$$可以在集合$$\chi = {x_1,x_2,...,x_n}$$
中取值。 概率质量函数

$$p(x)=p_r {X=x}, x \in \chi$$

表⽰系统处于某状态的概率

性质1:$$0 \leqslant p(x) \leqslant 1, x \in \chi$$

性质2:$$\sum _ {x\in \chi} p(x)=1$$

应用在上面例子中虚线标记的点:

考虑边的状态分布(假设这些包的类型相同):有三个用户$${u_1,u_2,u_3}$$,其中$$u_1$$用户选择$${me_1,me_2}$$,$$u_2$$用户选择$${me_2}$$,$$u_3$$用户选择$${me_3}$$。状态集合$$\chi ={ {me_1,me_2},{me_2},{me_3}}$$,其概率分布如下所示:

$$p({me1,me2})=1/3$$, $$p({me_2})=1/3$$, $$p({me_3})=1/3$$

考虑节点标签的状态分布:三个用户的点信息被融合到一个点中,假设 1.1的信息(name label )是$$label_1$$,2.1的信息(name label )是$$label_2$$,3.1的信息(name label )是$$label_1$$。状态集合$$\chi ={label_1,label_2}$$,其概率分布如下:

$$p(label_1)=2/3, p(label_2)=1/3$$

定义2:状态的相似度(similarity),对于两个状态$$x_i,x_j\in \chi$$

$$sim(x_i,x_j)=FeatureRelatedSimilarityFunciton(x_i,x_j)$$

满足如下性质:

性质1: $$0 \leqslant s(x_i,x_j) \leqslant 1$$ , 值1表示完全相似,值为0表示完全不相似

性质2:自反性$$s(x_i,x_i)=1$$,对称性$$s(x_i,x_j)=s(x_j,x_i)$$

边状态相似性计算:$$sim(x_i,x_j)=JaccardIndex(x_i,x_j)=\frac {|x_i \cap x_j|}{|x_i \cup x_j|},x_i,x_j \in \chi$$

在上例中,

$$sim({me_1,me_2},{me_2})=\frac {|{me_2}|}{|{me_1,me_2}|}=1/2$$

$$sim({me_1,me_2},{me_3})=\frac {|\varnothing|}{|{me_1,me_2,me_3}|}=0$$

节点标签相似性计算:$$sim(x_i,x_j)=\frac {2*Match(x_i,x_j)}{(|x_i|+|x_j|)}$$

具体计算方法参见关于语句相似度的计算。

广义熵定义是对传统信息论中离散型随机变量熵定义的一种泛化,因此,将其称为“广义熵”。

对于一个离散型随机变量而言,其熵是定义在概率分布函数上的一个泛函数。与传统离散型随机变量的熵相比,广义熵进一步考虑了一个离散型随机变量不同取值之间的相似度。可以看到,如果一个离散型随机变量的所有取值之间完全不相似,则广义熵应该等价于传统熵;如果一个离散型随机变量具有两个完全相似/相同的取值,且其余取值之间完全不相似,则广义熵的计算结果应等价于把这两个完全相似/相同的取值合并为一个值(对应的概率值则需要相加)之后形成的离散型随机变量具有的传统熵的值;如果一个离散型随机变量的所有取值之间完全相似/相同,则广义熵的计算结果为零。

广义熵用于刻画状态的多样程度,越多样,说明融合点所代表的群体观点越分散。越集中,说明融合点所代码的群体观点越一致。

$$H(X)=E{px}log\frac{1}{E{px^{'}}s(X,X^{'})}$$,$$X与X^{'}$$独立同分布

$$H(X)=-\sum{k=1}^{n}p(x_k)log(\sum{l=1}^{n}p(x_l)s(x_k,x_l))$$ 其中n表示X观点的状态数。

results matching ""

    No results matching ""