Información mutua

En teoría de la probabilidad, y en teoría de la información, la información mutua o transinformación o ganancia de información de dos variables aleatorias es una cantidad que mide la dependencia estadística entre ambas variables. Más precisamente, mide la información o reducción de la incertidumbre (entropía) de una variable aleatoria, $X$ , debido al conocimiento del valor de otra variable aleatoria $Y$ .^[1]

No se limita a variables en números reales ni a relaciones lineales, por lo que la información mutua es más general que el coeficiente de correlación de Pearson. La información mutua también puede entenderse como el valor esperado (la media) de la información mutua puntual, o como la diferencia de la distribución conjunta ( $P(X,Y)$ ) y el producto de las distribuciones marginales ( $P(X)P(Y)$ ).

Esta cantidad fue definida y analizada por Claude Shannon en su trabajo seminal, "A Mathematical Theory of Communication", aunque él no la llamó "información mutua". El término fue acuñado más tarde por Robert Fano.^[2]

Definición

Consideremos dos variables aleatorias X e Y con posibles valores x_i, i=1,2,...,n, y_j, j=1,2,...,m respectivamente. Podemos usar la notación $P(X=x_{i}|Y=y_{i})=P(x_{i}|y_{j})$ y $P(X=x_{i})=P(x_{i})$

Podemos definir la información mutua $I(x_{i};y_{j})$ entre $x_{i}$ y $y_{j}$ como:^[3]

I(x_{i};y_{j})=\log {\frac {P(x_{i}|y_{j})}{P(x_{i})}}

La unidad del concepto está determinado por la base del logaritmo usado. Se suelen usar logaritmos base dos, por tanto, la unidad de medida más común es el bit.

De la propia definición podemos concluir que $I(x_{i};y_{j})=I(y_{j};x_{i})$ ya que:

${\frac {P(x_{i}|y_{j})}{P(x_{i})}}={\frac {P(x_{i}|y_{j})P(y_{j})}{P(x_{i})P(y_{j})}}={\frac {P(x_{i},y_{j})}{P(x_{i})P(y_{j})}}={\frac {P(y_{j}|x_{i})}{P(y_{j})}}$

Información mutua media

La información mutua media mide la información mutua media que se produce entre los distintos valores de dos variables aleatorias. Para ello proporcionamos un peso a los valores de $I(x_{i};y_{j})$ sobre la base de la probabilidad de ocurrencia. Por tanto, la información mutua media de dos variables aleatorias discretas X e Y puede definirse como:^[3]

$I(X;Y)=\sum _{i=1}^{n}\sum _{j=1}^{m}P(x_{i},y_{j})I(x_{i};y_{j})=\sum _{i=1}^{n}\sum _{j=1}^{m}P(x_{i},y_{j})\log {\frac {P(x_{i}|y_{j})}{P(x_{i})}}=\sum _{i=1}^{n}\sum _{j=1}^{m}P(x_{i},y_{j})\log {\frac {P(x_{i},y_{j})}{P(x_{i})P(y_{j})}}$

En el caso continuo, reemplazamos la suma con una integral doble definida:

$I(X;Y)=\int _{Y}\int _{X}p(x,y)\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}\;dx\,dy,$

Como en el caso de $I(x_{i};y_{j})$ , la unidad del concepto está determinado por la base del logaritmo usado Se suele usar el logaritmo con base dos y por tanto la unidad más común es el bit.

Concepto intuitivo

Intuitivamente, la información mutua media mide la información que X e Y comparten: mide en cuánto el conocimiento de una variable reduce nuestra incertidumbre sobre la otra. Por ejemplo, si X e Y son independientes, entonces conocer X no da información sobre Y y viceversa, por lo que su información mutua es cero. En el otro extremo, si X e Y son idénticas entonces toda información proporcionada por X es compartida por Y: saber X determina el valor de Y y viceversa. Por ello, la información mutua media es igual a la información contenida en Y (o X) por sí sola, también llamada la entropía de Y (o X: claramente si X e Y son idénticas tienen idéntica entropía).

La información mutua media cuantifica la dependencia entre la distribución conjunta de X e Y y la que tendrían si X e Y fuesen independientes. La información mutua media es una medida de dependencia en el siguiente sentido: I(X; Y) = 0 si y sólo si X e Y son variables aleatorias independientes. Esto es fácil de ver en una dirección: si X e Y son independientes, entonces p(x,y) = p(x) p(y), y por tanto:

$\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}=\log 1=0.\,\!$

Propiedades

La información mutua media cumple las siguientes propiedades:^[3]^[4]

min(H(X),H(Y)) ≥ I(X;Y) ≥ 0 cumpliéndose la igualdad a 0 cuando X e Y son independientes.
I(X;Y) = I(Y;X).

Relación con entropía

Relación entre entropías e información mutua media^[3]

El valor de la información mutua media se puede obtener a partir del concepto de entropía. usando las definiciones matemáticas de las entropías H(X), H(X,Y) y H(X|Y)

$H(X)=-\sum _{i}p(x_{i})\log _{2}p(x_{i})$

$H(X,Y)=-\sum _{x,y}p(x,y)\log _{2}p(x,y)$

$H(X|Y)=-\sum _{y}p(y)\sum _{x}p(x|y)\log _{2}p(x|y)$

obtenemos

$I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$

De lo anterior y de la propiedad de las entropías

$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)$

obtenemos

$I(X;Y)=H(X)+H(Y)-H(X,Y)$

Por tanto,

$I(X;X)=H(X)+H(X)-H(X,X)=H(X)$

lo que indica que la entropía es un tipo especial de información mutua media

Véase también

Referencias

↑ Dan C. Marinescu, Gabriela M. Marinescu, "Classical and Quantum Information",Academic Press 2012
↑ Kreer, J. G. (1957). «A question of terminology». IRE Transactions on Information Theory 3 (3): 208. doi:10.1109/TIT.1957.1057418.
↑ ^a ^b ^c ^d Ranajan M. Bose,"Information Theory, Coding And Cryptography". Tata McGraw Hill 2008
↑ R.M.Gray,"Entropy and Information Theory", Springer 2011.Second Edition

Datos: Q252973

[1] Dan C. Marinescu, Gabriela M. Marinescu, "Classical and Quantum Information",Academic Press 2012

[2] Kreer, J. G. (1957). «A question of terminology». IRE Transactions on Information Theory 3 (3): 208. doi:10.1109/TIT.1957.1057418.

[Ranajan_1-3] Ranajan M. Bose,"Information Theory, Coding And Cryptography". Tata McGraw Hill 2008

[4] R.M.Gray,"Entropy and Information Theory", Springer 2011.Second Edition

[1]

[2]

[3]

[4]