广义信息熵(generalized information entropy)
信息论之父香农(C. E. Shannon) 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。香农借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,用信息熵的概念来描述信息源的不确定度。
信息熵 (Information & Entropy)
举例:从箱子里选三种颜色的球,需要信息表示长度(2进制)。如下图所示
信息公式:
$$I(p)=-log_b (p)$$ 注:概率越大,信息长度越短,所以公式-log
p是事件发生的概率,b是底数(2是常用的底数)
$$I(red ball)=-log(4/9)=1.1699 bits$$
$$I(yellow ball)=-log(2/9)=2.1699 bits$$
$$I(green ball)=-log(3/9)=1.58496 bits$$
熵Entropy: 是一个简单的信息数量的平均数。Entropy is simply the average (expected) amount of the information from the event.
$$Entropy=- \sum_{i=1}^{n} p_ilog_b (p_i)$$ n是不同结果的数量
在上面的例子中,n=3 (green, yellow, red)
$$Entropy=- \sum_{i=1}^{n} p_ilog_b (p_i)=-(4/9)log(4/9)-(2/9)log(2/9)-(3/9)log(3/9)=1.5304755$$
熵值说明:每次从垃圾箱中选择一个球时,您都需要获得1.5304755的信息
$$I=- \sum_{i=1}^{n} (Np_i)log_b (p_i)$$ $$Np_i$$表示确定性结果在N中出现的近似数。
所以当你看到N个事件的总信息和熵方程之间的差异时,只有在N处发生了变化.N向右移动,这意味着I / N是熵。 因此,熵是某一事件中平均(预期)的信息量。
熵值并不是0-1之间,而是$$0 \leqslant Entropy \leqslant log(n)$$
- 当有一个节果的概率为1,其他结果的概率都为0,则熵值为最小0
- 当所有结果的概率相同,则熵值最大为$$log(n)$$
关于信息熵的参考文献:
http://csustan.csustan.edu/~tom/sfi-csss/info- theory/info-lec.pdf (15-34页)
http://ee.stanford.edu/~gray/it.pdf
广义熵 (generalized information entropy)
信息熵用于度量多样性(diversity)。当分布越多样(平均),熵值越大。越集中,熵值越小。
在群体模型的融合问题中,可以用熵来度量这种多样性。对于群体集中(共识),熵值越小越好。
举例:下图是一个群体模型的融合状态,虚线画出的点要度量群体共识的多样性分布。
定义1:节点群体观点的状态(state),节点的融合状态可以用离散随机变量$$X$$来表示,$$X$$可以在集合$$\chi = {x_1,x_2,...,x_n}$$
中取值。 概率质量函数
$$p(x)=p_r {X=x}, x \in \chi$$
表⽰系统处于某状态的概率
性质1:$$0 \leqslant p(x) \leqslant 1, x \in \chi$$
性质2:$$\sum _ {x\in \chi} p(x)=1$$
应用在上面例子中虚线标记的点:
考虑边的状态分布(假设这些包的类型相同):有三个用户$${u_1,u_2,u_3}$$,其中$$u_1$$用户选择$${me_1,me_2}$$,$$u_2$$用户选择$${me_2}$$,$$u_3$$用户选择$${me_3}$$。状态集合$$\chi ={ {me_1,me_2},{me_2},{me_3}}$$,其概率分布如下所示:
$$p({me1,me2})=1/3$$, $$p({me_2})=1/3$$, $$p({me_3})=1/3$$
考虑节点标签的状态分布:三个用户的点信息被融合到一个点中,假设 1.1的信息(name label )是$$label_1$$,2.1的信息(name label )是$$label_2$$,3.1的信息(name label )是$$label_1$$。状态集合$$\chi ={label_1,label_2}$$,其概率分布如下:
$$p(label_1)=2/3, p(label_2)=1/3$$
定义2:状态的相似度(similarity),对于两个状态$$x_i,x_j\in \chi$$
$$sim(x_i,x_j)=FeatureRelatedSimilarityFunciton(x_i,x_j)$$
满足如下性质:
性质1: $$0 \leqslant s(x_i,x_j) \leqslant 1$$ , 值1表示完全相似,值为0表示完全不相似
性质2:自反性$$s(x_i,x_i)=1$$,对称性$$s(x_i,x_j)=s(x_j,x_i)$$
边状态相似性计算:$$sim(x_i,x_j)=JaccardIndex(x_i,x_j)=\frac {|x_i \cap x_j|}{|x_i \cup x_j|},x_i,x_j \in \chi$$
在上例中,
$$sim({me_1,me_2},{me_2})=\frac {|{me_2}|}{|{me_1,me_2}|}=1/2$$
$$sim({me_1,me_2},{me_3})=\frac {|\varnothing|}{|{me_1,me_2,me_3}|}=0$$
节点标签相似性计算:$$sim(x_i,x_j)=\frac {2*Match(x_i,x_j)}{(|x_i|+|x_j|)}$$
具体计算方法参见关于语句相似度的计算。
广义熵定义是对传统信息论中离散型随机变量熵定义的一种泛化,因此,将其称为“广义熵”。
对于一个离散型随机变量而言,其熵是定义在概率分布函数上的一个泛函数。与传统离散型随机变量的熵相比,广义熵进一步考虑了一个离散型随机变量不同取值之间的相似度。可以看到,如果一个离散型随机变量的所有取值之间完全不相似,则广义熵应该等价于传统熵;如果一个离散型随机变量具有两个完全相似/相同的取值,且其余取值之间完全不相似,则广义熵的计算结果应等价于把这两个完全相似/相同的取值合并为一个值(对应的概率值则需要相加)之后形成的离散型随机变量具有的传统熵的值;如果一个离散型随机变量的所有取值之间完全相似/相同,则广义熵的计算结果为零。
广义熵用于刻画状态的多样程度,越多样,说明融合点所代表的群体观点越分散。越集中,说明融合点所代码的群体观点越一致。
$$H(X)=E{px}log\frac{1}{E{px^{'}}s(X,X^{'})}$$,$$X与X^{'}$$独立同分布
$$H(X)=-\sum{k=1}^{n}p(x_k)log(\sum{l=1}^{n}p(x_l)s(x_k,x_l))$$ 其中n表示X观点的状态数。