Entropia cruzada

Na teoria da informação, a entropia cruzada se refere à diferença entre duas distribuições de probabilidade p {\displaystyle p} (verdadeira) e q {\displaystyle q} (estimada) sobre o mesmo conjunto de eventos. Na prática, a entropia cruzada mede o número médio de bits necessários para identificar um evento , se a codificação utilizada for otimizada para a distribuição de probabilidade estimada q {\displaystyle q} , em vez de otimizada para a distribuição de probabilidade verdadeira p {\displaystyle p} .

Definição

A entropia cruzada da distribuição q {\displaystyle q} em relação a uma distribuição p {\displaystyle p} sobre um determinado conjunto é definido da seguinte maneira:

H ( p , q ) = E p [ log q ] {\displaystyle H(p,q)=-\operatorname {E} _{p}[\log q]} .

A definição pode ser formulada usando a divergência Kullback – Leibler D K L ( p q ) {\displaystyle D_{\mathrm {KL} }(p\|q)} do p {\displaystyle p} a partir de q {\displaystyle q} (também conhecida como entropia relativa de q {\displaystyle q} em relação a p {\displaystyle p} )

H ( p , q ) = H ( p ) + D K L ( p q ) {\displaystyle H(p,q)=H(p)+D_{\mathrm {KL} }(p\|q)} ,

Onde H ( p ) {\displaystyle H(p)} é a entropia de p {\displaystyle p} .

Para distribuições de probabilidade discretas p {\displaystyle p} e q {\displaystyle q} com o mesmo suporte X {\displaystyle {\mathcal {X}}} , isso significa queː

H ( p , q ) = x X p ( x ) log q ( x ) {\displaystyle H(p,q)=-\sum _{x\in {\mathcal {X}}}p(x)\,\log q(x)}

 

 

 

 

(Eq.1)

A situação para distribuições contínuas é análoga. Temos que assumir que p {\displaystyle p} e q {\displaystyle q} são absolutamente contínuos em relação a alguma medida de referência r {\displaystyle r} (usualmente r {\displaystyle r} é uma medida de Lebesgue em uma σ-álgebra de Borel ). Deixe P {\displaystyle P} e Q {\displaystyle Q} serem funções densidade de probabilidade de p {\displaystyle p} e q {\displaystyle q} em relação a r {\displaystyle r} . Entãoː

X P ( x ) log Q ( x ) d r ( x ) = E p [ log Q ] {\displaystyle -\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q]}

e, portantoː

H ( p , q ) = X P ( x ) log Q ( x ) d r ( x ) {\displaystyle H(p,q)=-\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)}

 

 

 

 

(Eq.2)

Nota: A notação H ( p , q ) {\displaystyle H(p,q)} também é usado para um conceito diferente, a entropia conjunta de p {\displaystyle p} e q {\displaystyle q} .

Motivação

Na teoria da informação, o teorema de Kraft – McMillan estabelece que qualquer esquema diretamente decodificável que codifique uma mensagem capaz de identificar um valor x i {\displaystyle x_{i}} ( de um conjunto de possibilidades { x 1 , . . . , x n } {\displaystyle \{x_{1},...,x_{n}\}} ) pode ser visto como representando uma distribuição implícita de probabilidade q ( x i ) = ( 1 2 ) l i {\displaystyle q(x_{i})=\left({\frac {1}{2}}\right)^{l_{i}}} sobre { x 1 , . . . , x n } {\displaystyle \{x_{1},...,x_{n}\}} , onde l i {\displaystyle l_{i}} é o comprimento do código para x i {\displaystyle x_{i}} em bits. Portanto, a entropia cruzada pode ser interpretada como o comprimento esperado da mensagem por cada dado quando a distribuição incorreta q {\displaystyle q} é assumida, enquanto, na verdade, os dados seguem a distribuição correta p {\displaystyle p} . É por isso que a expectativa (E) é assumida sobre a distribuição de probabilidade p {\displaystyle p} e não q {\displaystyle q} . De fato, o tamanho esperado da mensagem sob a verdadeira distribuição p {\displaystyle p} é,

E p [ l ] = E p [ ln q ( x ) ln ( 2 ) ] = E p [ log 2 q ( x ) ] = x i p ( x i ) log 2 q ( x i ) = x p ( x ) log 2 q ( x ) = H ( p , q ) {\displaystyle \operatorname {E} _{p}[l]=-\operatorname {E} _{p}\left[{\frac {\ln {q(x)}}{\ln(2)}}\right]=-\operatorname {E} _{p}\left[\log _{2}{q(x)}\right]=-\sum _{x_{i}}p(x_{i})\,\log _{2}{q(x_{i})}=-\sum _{x}p(x)\,\log _{2}q(x)=H(p,q)}

Estimativa

Existem muitas situações em que precisamos medir a entropia cruazada, mas não sabemos a distribuição real p {\displaystyle p} É. Um exemplo é a modelagem de linguagem, na qual um modelo é criado com base no conjunto de treinamento T {\displaystyle T} e sua entropia cruzada é medida em um conjunto de testes para avaliar a precisão. Neste exemplo, p {\displaystyle p} é a verdadeira distribuição das palavras em qualquer corpus, e q {\displaystyle q} é a distribuição de palavras conforme previsto pelo modelo. Como a distribuição verdadeira é desconhecida, a entropia cruzada não pode ser calculada diretamente. Nesses casos, uma estimativa da entropia cruzada é calculada usando a seguinte fórmula:

H ( T , q ) = i = 1 N 1 N log 2 q ( x i ) {\displaystyle H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})}

onde N {\displaystyle N} é o tamanho do conjunto de teste e q ( x ) {\displaystyle q(x)} é a probabilidade de evento x {\displaystyle x} estimado a partir do conjunto de treinamento. A soma é calculada sobre N {\displaystyle N} . Essa é uma estimativa de Monte Carlo da verdadeira entropia cruzada, na qual o conjunto de testes é tratado como amostras de p ( x ) {\displaystyle p(x)}   .

Relação com log-verossimilhança

Nos problemas de classificação, queremos estimar a probabilidade de resultados diferentes. Se a probabilidade estimada de resultado i {\displaystyle i} é q i {\displaystyle q_{i}} , a frequência (probabilidade empírica) de i {\displaystyle i} no conjunto de treinamento é p i {\displaystyle p_{i}} e há N amostras de treinamento, a verossimilhança do conjunto de treinamento é

i q i N p i {\displaystyle \prod _{i}q_{i}^{Np_{i}}}

portanto, a log-verossimilhança, dividida por N {\displaystyle N} é

1 N log i q i N p i = i p i log q i = H ( p , q ) {\displaystyle {\frac {1}{N}}\log \prod _{i}q_{i}^{Np_{i}}=\sum _{i}p_{i}\log q_{i}=-H(p,q)}

de modo que maximizar a verossimilhança é o mesmo que minimizar a entropia cruzada.

Minimização de entropia cruzada

A minimização de entropia cruzada é freqüentemente usada na otimização e na estimativa da probabilidade de eventos raros.

Ao comparar uma distribuição q {\displaystyle q} contra uma distribuição de referência fixa p {\displaystyle p} , entropia cruzada e divergência KL são idênticas até uma constante aditiva (já que p {\displaystyle p} é fixo): ambos assumem seus valores mínimos quando p = q {\displaystyle p=q} , atingindo 0 {\displaystyle 0} para a divergência KL e H ( p ) {\displaystyle \mathrm {H} (p)} para a entropia cruzada.[1] Na literatura de engenharia, o princípio de minimizar a divergência KL (" Princípio da informação mínima sobre discriminação " de Kullback) é freqüentemente chamado de Princípio da entropia cruzada mínima (MCE), ou Minxent .

Entretanto, conforme discutido no artigo Divergência de Kullback-Leibler, às vezes a distribuição q {\displaystyle q} é a distribuição de referência prévia fixa e a distribuição p {\displaystyle p} é otimizado para ficar o mais próximo possível q {\displaystyle q} quanto possível, sujeito a alguma restrição. Nesse caso, as duas minimizações não são equivalentes. Isso levou a alguma ambiguidade na literatura, com alguns autores tentando resolver a inconsistência redefinindo a entropia cruzada para ser D K L ( p q ) {\displaystyle D_{\mathrm {KL} }(p\|q)} , ao invés de H ( p , q ) {\displaystyle H(p,q)} .

Função de perda de entropia cruzada e regressão logística

A entropia cruzada pode ser usada para definir uma função de perda no aprendizado de máquina e otimização . A verdadeira probabilidade p i {\displaystyle p_{i}} é o rótulo verdadeiro e a distribuição fornecida q i {\displaystyle q_{i}} é o valor previsto do modelo atual.

Mais especificamente, considere a regressão logística, que (entre outras coisas) pode ser usada para classificar observações em duas classes possíveis (geralmente simplesmente rotuladas 0 {\displaystyle 0} e 1 {\displaystyle 1} ) A saída do modelo para uma observação, dado um vetor de entrada x {\displaystyle x} , pode ser interpretado como uma probabilidade, que serve como base para classificar a observação. A probabilidade é modelada usando a função logística g ( z ) = 1 / ( 1 + e z ) {\displaystyle g(z)=1/(1+e^{-z})} Onde z {\displaystyle z} é alguma função do vetor de entrada x {\displaystyle x} , geralmente apenas uma função linear. A probabilidade de saída y = 1 {\displaystyle y=1} É dado por

q y = 1   =   y ^     g ( w x )   = 1 / ( 1 + e w x ) , {\displaystyle q_{y=1}\ =\ {\hat {y}}\ \equiv \ g(\mathbf {w} \cdot \mathbf {x} )\ =1/(1+e^{-\mathbf {w} \cdot \mathbf {x} }),}

onde o vetor de pesos w {\displaystyle \mathbf {w} } é otimizado através de algum algoritmo apropriado, como descida de gradiente. Da mesma forma, a probabilidade complementar de encontrar a saída y = 0 {\displaystyle y=0} é simplesmente dado por

q y = 0   =   1 y ^ {\displaystyle q_{y=0}\ =\ 1-{\hat {y}}}

Tendo criado nossa notação, p { y , 1 y } {\displaystyle p\in \{y,1-y\}} e q { y ^ , 1 y ^ } {\displaystyle q\in \{{\hat {y}},1-{\hat {y}}\}} , podemos usar entropia cruzada para obter uma medida de dissimilaridade entre p {\displaystyle p} e q {\displaystyle q}  :

H ( p , q )   =   i p i log q i   =   y log y ^ ( 1 y ) log ( 1 y ^ ) {\displaystyle H(p,q)\ =\ -\sum _{i}p_{i}\log q_{i}\ =\ -y\log {\hat {y}}-(1-y)\log(1-{\hat {y}})}

A função de perda típica que se usa na regressão logística é calculada pela média de todas as entropias cruzadas na amostra. Por exemplo, suponha que tenhamos N {\displaystyle N} amostras com cada amostra indexada por n = 1 , , N {\displaystyle n=1,\dots ,N} . A função de perda é então dada por:

J ( w )   =   1 N n = 1 N H ( p n , q n )   =   1 N n = 1 N   [ y n log y ^ n + ( 1 y n ) log ( 1 y ^ n ) ] , {\displaystyle {\begin{aligned}J(\mathbf {w} )\ &=\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,\end{aligned}}}

Onde y ^ n g ( w x n ) = 1 / ( 1 + e w x n ) {\displaystyle {\hat {y}}_{n}\equiv g(\mathbf {w} \cdot \mathbf {x} _{n})=1/(1+e^{-\mathbf {w} \cdot \mathbf {x} _{n}})} com g ( z ) {\displaystyle g(z)} a função logística como antes.

A perda logística é às vezes chamada de perda de entropia cruzada. Também é conhecido como perda de log (log loss) (nesse caso, o rótulo binário é frequentemente indicado por {-1, + 1}).[2]

Ver também

Referências

  1. Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press. Online
  2. Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. [S.l.: s.n.] ISBN 978-0262018029 

Ligações externas

  • O que é entropia cruzada e por que usá-la?
  • Entropia cruzada