广义信息熵（generalized information entropy）

信息论之父香农（C. E. Shannon）在 1948 年发表的论文“通信的数学理论（ A Mathematical Theory of Communication ）”中指出，任何信息都存在冗余，冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。香农借鉴了热力学的概念，把信息中排除了冗余后的平均信息量称为“信息熵”，用信息熵的概念来描述信息源的不确定度。

信息熵 (Information & Entropy)

举例：从箱子里选三种颜色的球，需要信息表示长度（2进制）。如下图所示

信息公式：

$$I(p)=-log_b (p)$$ 注：概率越大，信息长度越短，所以公式-log

p是事件发生的概率，b是底数（2是常用的底数）

$$I(red ball)=-log(4/9)=1.1699 bits$$

$$I(yellow ball)=-log(2/9)=2.1699 bits$$

$$I(green ball)=-log(3/9)=1.58496 bits$$

熵Entropy：是一个简单的信息数量的平均数。Entropy is simply the average (expected) amount of the information from the event.

$$Entropy=- \sum_{i=1}^{n} p_ilog_b (p_i)$$ n是不同结果的数量

在上面的例子中，n=3 （green, yellow, red）

$$Entropy=- \sum_{i=1}^{n} p_ilog_b (p_i)=-(4/9)log(4/9)-(2/9)log(2/9)-(3/9)log(3/9)=1.5304755$$

熵值说明：每次从垃圾箱中选择一个球时，您都需要获得1.5304755的信息

$$I=- \sum_{i=1}^{n} (Np_i)log_b (p_i)$$ $$Np_i$$表示确定性结果在N中出现的近似数。

所以当你看到N个事件的总信息和熵方程之间的差异时，只有在N处发生了变化.N向右移动，这意味着I / N是熵。因此，熵是某一事件中平均（预期）的信息量。

熵值并不是0-1之间，而是$$0 \leqslant Entropy \leqslant log(n)$$

当有一个节果的概率为1，其他结果的概率都为0，则熵值为最小0
当所有结果的概率相同，则熵值最大为$$log(n)$$

关于信息熵的参考文献：

http://csustan.csustan.edu/~tom/sfi-csss/info- theory/info-lec.pdf （15-34页）

http://ee.stanford.edu/~gray/it.pdf

广义熵（generalized information entropy）

信息熵用于度量多样性(diversity)。当分布越多样（平均），熵值越大。越集中，熵值越小。

在群体模型的融合问题中，可以用熵来度量这种多样性。对于群体集中（共识），熵值越小越好。

举例：下图是一个群体模型的融合状态，虚线画出的点要度量群体共识的多样性分布。

定义1：节点群体观点的状态(state)，节点的融合状态可以用离散随机变量$$X$$来表示，$$X$$可以在集合$$\chi = {x_1,x_2,...,x_n}$$
中取值。概率质量函数

$$p(x)=p_r {X=x}, x \in \chi$$

表⽰系统处于某状态的概率

性质1：$$0 \leqslant p(x) \leqslant 1, x \in \chi$$

性质2：$$\sum _ {x\in \chi} p(x)=1$$

应用在上面例子中虚线标记的点：

考虑边的状态分布（假设这些包的类型相同）：有三个用户$${u_1,u_2,u_3}$$，其中$$u_1$$用户选择$${me_1,me_2}$$,$$u_2$$用户选择$${me_2}$$,$$u_3$$用户选择$${me_3}$$。状态集合$$\chi ={ {me_1,me_2},{me_2},{me_3}}$$，其概率分布如下所示：

$$p({me1,me2})=1/3$$, $$p({me_2})=1/3$$, $$p({me_3})=1/3$$

考虑节点标签的状态分布：三个用户的点信息被融合到一个点中，假设 1.1的信息（name label ）是$$label_1$$,2.1的信息（name label ）是$$label_2$$,3.1的信息（name label ）是$$label_1$$。状态集合$$\chi ={label_1,label_2}$$,其概率分布如下：

$$p(label_1)=2/3, p(label_2)=1/3$$

定义2：状态的相似度(similarity)，对于两个状态$$x_i,x_j\in \chi$$

$$sim(x_i,x_j)=FeatureRelatedSimilarityFunciton(x_i,x_j)$$

满足如下性质：

性质1: $$0 \leqslant s(x_i,x_j) \leqslant 1$$ , 值1表示完全相似，值为0表示完全不相似

性质2：自反性$$s(x_i,x_i)=1$$，对称性$$s(x_i,x_j)=s(x_j,x_i)$$

边状态相似性计算：$$sim(x_i,x_j)=JaccardIndex(x_i,x_j)=\frac {|x_i \cap x_j|}{|x_i \cup x_j|},x_i,x_j \in \chi$$

在上例中，

$$sim({me_1,me_2},{me_2})=\frac {|{me_2}|}{|{me_1,me_2}|}=1/2$$

$$sim({me_1,me_2},{me_3})=\frac {|\varnothing|}{|{me_1,me_2,me_3}|}=0$$

节点标签相似性计算：$$sim(x_i,x_j)=\frac {2*Match(x_i,x_j)}{(|x_i|+|x_j|)}$$

具体计算方法参见关于语句相似度的计算。

广义熵定义是对传统信息论中离散型随机变量熵定义的一种泛化，因此，将其称为“广义熵”。

对于一个离散型随机变量而言，其熵是定义在概率分布函数上的一个泛函数。与传统离散型随机变量的熵相比，广义熵进一步考虑了一个离散型随机变量不同取值之间的相似度。可以看到，如果一个离散型随机变量的所有取值之间完全不相似，则广义熵应该等价于传统熵；如果一个离散型随机变量具有两个完全相似/相同的取值，且其余取值之间完全不相似，则广义熵的计算结果应等价于把这两个完全相似/相同的取值合并为一个值（对应的概率值则需要相加）之后形成的离散型随机变量具有的传统熵的值；如果一个离散型随机变量的所有取值之间完全相似/相同，则广义熵的计算结果为零。

广义熵用于刻画状态的多样程度，越多样，说明融合点所代表的群体观点越分散。越集中，说明融合点所代码的群体观点越一致。

$$H(X)=E{px}log\frac{1}{E{px^{'}}s(X,X^{'})}$$,$$X与X^{'}$$独立同分布

$$H(X)=-\sum{k=1}^{n}p(x_k)log(\sum{l=1}^{n}p(x_l)s(x_k,x_l))$$ 其中n表示X观点的状态数。

关于广义信息熵

广义信息熵（generalized information entropy）

信息熵 (Information & Entropy)

广义熵（generalized information entropy）

results matching ""

No results matching ""

广义信息熵（generalized information entropy）

信息熵 (Information & Entropy)

广义熵 （generalized information entropy）

results matching ""

No results matching ""

广义熵（generalized information entropy）