Condições de Karush-Kuhn-Tucker

Em otimização, as Condições de Karush-Kuhn-Tucker (também conhecidas como Condições de Kuhn-Tucker ou condições KKT) são condições de primeira ordem para que uma solução de um problema de programação não linear seja ótima, desde que valham condições chamadas de condições de qualificação ou, em inglês, constraint qualifications. Permitindo restrições de desigualdade, as condições KKT generalizam, na programação não linear, o método de multiplicadores de Lagrange, que permite somente restrições de igualdade. O sistema de equações e inequações correspondente às condições KKT em geral não é resolvido diretamente, exceto em alguns casos especiais onde uma solução pode ser obtida analiticamente. Nos demais casos, diversos algoritmos de otimização podem ser usados para resolver numericamente o sistema.

As condições KKT foram originalmente nomeadas após Harold W. Kuhn e Albert W. Tucker, que primeiro publicaram essas condições em 1951.[1] Porém, estudiosos posteriores descobriram que as condições necessárias para esse problema já haviam sido ditadas por William Karush em sua tese de mestrado em 1939.[2][3]

O problema

Seja o seguinte problema de otimização não-linear (também conhecido como PNL):

( P N L ) { min x f ( x ) sujeito a g i ( x ) 0 h j ( x ) = 0 {\displaystyle (PNL){\begin{cases}\min \limits _{x}&f(x)\\{\text{sujeito a}}&g_{i}(x)\leq 0\\&h_{j}(x)=0\end{cases}}}

onde

x R n {\displaystyle x\in \mathbb {R} ^{n}} é a variável de otimização,
f ( x ) {\displaystyle f(x)} é a função a ser minimizada (chamada também de função objetivo),
g i ( x ) {\displaystyle g_{i}(x)} , com i = 1 , 2 , . . . , m {\displaystyle i=1,2,...,m} são as restrições de desigualdade,
h j ( x ) {\displaystyle h_{j}(x)} , com j = 1 , 2 , . . . , l {\displaystyle j=1,2,...,l} são restrições de igualdade,

sendo m {\displaystyle m} e l {\displaystyle l} as quantidades de restrições de desigualdade e igualdade, respectivamente.

Condições necessárias

Seja um PNL definido como na seção acima. Seja também o operador Lagrangeano L : R n × R m × R l R {\displaystyle L:\mathbb {R} ^{n}\times \mathbb {R} ^{m}\times \mathbb {R} ^{l}\rightarrow \mathbb {R} } definido como:

L ( x , μ , λ ) = f ( x ) + i = 1 m μ i g i ( x ) + j = 1 l λ j h j ( x ) {\displaystyle L(x,\mu ,\lambda )=f(x)+\sum _{i=1}^{m}\mu _{i}g_{i}(x)+\sum _{j=1}^{l}\lambda _{j}h_{j}(x)}

Suponha que a função objetivo f : R n R {\displaystyle f:\mathbb {R} ^{n}\rightarrow \mathbb {R} } e as restrições g i : R n R {\displaystyle g_{i}:\,\!\mathbb {R} ^{n}\rightarrow \mathbb {R} } e h j : R n R {\displaystyle h_{j}:\,\!\mathbb {R} ^{n}\rightarrow \mathbb {R} } sejam continuamente diferenciáveis em um ponto x {\displaystyle x^{*}} .

Se x {\displaystyle x^{*}} é um mínimo local para f {\displaystyle f} e o PNL satisfaz algumas condições de regularidade então existem constantes μ i {\displaystyle \mu _{i}} com i = 1 , 2 , . . . , m {\displaystyle i=1,2,...,m} e λ j {\displaystyle \lambda _{j}} com j = 1 , 2 , . . . , l {\displaystyle j=1,2,...,l} , chamadas de multiplicadores KKT tais que[4]:

Estacionariedade

f ( x ) + i = 1 m μ i g i ( x ) + j = 1 l λ j h j ( x ) = 0 {\displaystyle \nabla f(x^{*})+\sum _{i=1}^{m}\mu _{i}\nabla g_{i}(x^{*})+\sum _{j=1}^{l}\lambda _{j}\nabla h_{j}(x^{*})=0} [Demonstração 1][5]

Folga complementar

μ i g i ( x ) = 0 {\displaystyle \mu _{i}g_{i}(x^{*})=0} para todo i = 1 , 2 , . . . , m {\displaystyle i=1,2,...,m} [Demonstração 2][5]

Viabilidade primal

g i ( x ) 0 {\displaystyle g_{i}(x^{*})\leq 0} para todo i = 1 , 2 , . . . , m {\displaystyle i=1,2,...,m}
h j ( x ) = 0 {\displaystyle h_{j}(x^{*})=0} para todo j = 1 , 2 , . . . , l {\displaystyle j=1,2,...,l} [5]

Viabilidade dual

μ i 0 {\displaystyle \mu _{i}\geq 0} para todo i = 1 , 2 , . . . , m {\displaystyle i=1,2,...,m} [5]

As restrições g i ( x ) {\displaystyle g_{i}(x)\,} em que g i ( x ) = 0 {\displaystyle g_{i}(x^{*})=0\,} são chamadas restrições ativas em x {\displaystyle x^{*}} .

No caso particular em que m = 0 {\displaystyle m=0} , isto é, não há nenhuma restrição de desigualdade, as condições KKT se transformam nas condições de Lagrange e os multiplicadores KKT são chamados multiplicadores de Lagrange.

Se algumas das funções não são diferenciáveis, versões subdiferenciáveis das condições KKT estão disponíveis.[6]

Condições suficientes

Em alguns casos, as condições necessárias são também suficientes para otimalidade, mas em geral, isso não ocorre e informações adicionais são necessárias, como as condições suficientes de segunda ordem. Para funções suaves, essas condições envolvem as segundas derivadas, o que explica seu nome.

As condições necessárias são suficientes para otimalidade se a função objetivo f {\displaystyle f} de um problema de maximização é uma função côncava, as restrições de desigualdade g j {\displaystyle g_{j}} são funções convexas continuamente diferenciáveis e as restrições de igualdade h i {\displaystyle h_{i}} são funções afim.

H.D. Martin provou em 1985 que a ampla classe de funções em que as condições KKT garantem a otimalidade global é chamada funções invexas tipo 1.[7][8]

Condições suficientes de segunda ordem

Para problemas não-lineares suaves, uma condição suficiente de segunda ordem é dada como segue:

Considere x {\displaystyle x^{*}} , λ {\displaystyle \lambda ^{*}} , ρ {\displaystyle \rho ^{*}} que achem um mínimo local usando as condições KKT. Com ρ {\displaystyle \rho ^{*}} tal que a complementaridade estrita é mantida em x {\displaystyle x^{*}} (i.e. todo ρ i > 0 {\displaystyle \rho _{i}>0} ), então para todo s 0 {\displaystyle s\neq 0} tal que

[ δ g ( x ) δ x , δ h ( x ) δ x ] T s = 0 {\displaystyle \left[{\frac {\delta g(x^{*})}{\delta x}},{\frac {\delta h(x^{*})}{\delta x}}\right]^{T}s=0}

A seguinte equação deve se manter: s x x 2 L ( x , λ , ρ ) s 0 {\displaystyle s'\nabla _{xx}^{2}L(x^{*},\lambda ^{*},\rho ^{*})s\geq 0}

Se a condição acima é satisfeita estritamente, a função é estritamente restrita a um mínimo local.

Demonstrações

  1. Se x {\displaystyle x^{*}} é um minimizador local para f {\displaystyle f} (e consequentemente para L {\displaystyle L} ), então o gradiente de L {\displaystyle L} deve ser nulo em x {\displaystyle x^{*}} . Isto é:
    L ( x , μ , λ ) = 0 {\displaystyle \nabla L(x^{*},\mathbf {\mu } ,\mathbf {\lambda } )=0}
    f ( x ) + i = 1 m μ i g i ( x ) + j = 1 l λ j h j ( x ) = 0 {\displaystyle f(x^{*})+\sum _{i=1}^{m}\mu _{i}g_{i}(x^{*})+\sum _{j=1}^{l}\lambda _{j}h_{j}(x^{*})=0}
  2. Com as suposições e resultados da primeira condição de KKT obtém-se que:
    • f ( x ) = 0 {\displaystyle \nabla f(x^{*})=0} (o gradiente da função objetivo no mínimo local é nulo) e;
    • j = 1 l λ j h j ( x ) = 0 {\displaystyle \sum _{j=1}^{l}\lambda _{j}h_{j}(x^{*})=0} (por conta da viabilidade primal).
    Portanto:
    • f ( x ) + i = 1 m μ i g i ( x ) + j = 1 l λ j h j ( x ) = 0 i = 1 m μ i g i ( x ) = 0 {\displaystyle f(x^{*})+\sum _{i=1}^{m}\mu _{i}g_{i}(x^{*})+\sum _{j=1}^{l}\lambda _{j}h_{j}(x^{*})=0\rightarrow \sum _{i=1}^{m}\mu _{i}g_{i}(x^{*})=0}
    Como g i ( x ) 0 {\displaystyle g_{i}(x^{*})\leq 0} e μ i 0 {\displaystyle \mu _{i}\geq 0} (viabilidade dual), μ i g i ( x ) 0 {\displaystyle \mu _{i}g_{i}(x^{*})\leq 0} para todo i = 1 , 2 , . . . , m {\displaystyle i=1,2,...,m} .
    Logo, j = 1 l λ j h j ( x ) = 0 {\displaystyle \sum _{j=1}^{l}\lambda _{j}h_{j}(x^{*})=0} só é verdadeiro se μ i g i ( x ) = 0 {\displaystyle \mu _{i}g_{i}(x^{*})=0} para todo i = 1 , 2 , . . . , m {\displaystyle i=1,2,...,m} .

Referências

  1. Kuhn, H. W.; Tucker, A. W. (1951). «Nonlinear programming». Proceedings of 2nd Berkeley Symposium. Berkeley: University of California Press. pp. 481–492 
  2. W. Karush (1939). «Minima of Functions of Several Variables with Inequalities as Side Constraints». Dept. of Mathematics, Univ. of Chicago, Chicago, Illinois. M.Sc. Dissertation 
  3. Kjeldsen, Tinne Hoff (2000). «A contextualized historical analysis of the Kuhn-Tucker theorem in nonlinear programming: the impact of World War II». Historia Math. 27 (4): 331–361. MR 1800317. doi:10.1006/hmat.2000.2289 
  4. «The Karush-Kuhn-Tucker Theorem» (PDF). Consultado em 11 de março de 2008. Arquivado do original (PDF) em 10 de junho de 2007 
  5. a b c d Boyd, Stephen; Vandenberghe, Lieven (2004). Convex Optimization (PDF) (em inglês). Cambridge, United Kingdom: Cambridge University Press. pp. 225, 243. ISBN 978-0-521-83378-3. Consultado em 8 de abril de 2017 
  6. Ruszczyński, Andrzej (2006). Nonlinear Optimization. Princeton, NJ: Princeton University Press. ISBN 978-0691119151. MR 2199043 
  7. Martin, D. H. (1985). «The Essence of Invexity». J. Optim. Theory Appl. 47 (1): 65–76. doi:10.1007/BF00941316 
  8. Hanson, M. A. (1999). «Invexity and the Kuhn-Tucker Theorem». J. Math. Anal. Appl. 236 (2): 594–604. doi:10.1006/jmaa.1999.6484