Mariano Rivera
septiembre 2018
[1] J. Nocedal and s. Wright, Numerical Optimization, 2ed. Springer (2006).
Notación. Para simplificar nuestra notación definimos:
Sea el problema de optimización
(1)
para suave (2 veces continuamente diferenciable).
Luego, sea el punto actual tal que , entonces el punto puede obtenerse mediante la fórmula de actualización
(2)
donde es el tamaño de paso. Luego para una suficientemente pequeña que garantiza:
(3)
Usando expansión de Taylor de Primer orden en (3), y dado que , tenemos
(4)
para una fija, esta cantidad será mas negativa si
(5)
que es llamada dirección de descenso de gradiente o de máximo descenso.
Una dirección distinta a la de descenso de gradiente es la de Newton, en ella partimos de usar la fórmula de actualización (2), pero asumimos que .
Entonces, se calcula tal que:
(6)
Ahora, expandimos en series de Taylor de segundo orden:
(7)
y encontarmos el óptimo de este modelo cuadrático mediante:
(8)
esto es . Po r lo que es solución de
(9)
que es conocida como la dirección de descenso de Newton o dirección de Newton (Nw).
Note que es óptima con respecto a , pero no necesariamnete satisface . Entonces usamos un tamaño de paso que permita asegurar descenso, quedando la actualización como (2).
El método tienen convergencia cuadrática (superior a la de descenso de gradiente), sin embargo la desventaje implica que debe calcularse el Hessiano () de la función objetivo y resolverse, aproximadamente, el sistema lineal (9) en cada iteración.
Note que (9) puede resolverse aproximadamente mediante la detención temprana de métodos iterativos, como el de Descenso de Gradiente. Este método Newton-Gradiente Conjugado, no requiere del cálculo explícito del Hassiano pero si del producto .
Una variante del método de newton se obtienen si elegimos solo una variabla a actializar en cada iteración; definimos el índice de la variable a actualizar como
(10)
donde representa el módulo, es la dimensión de y la iteración actual.
Entonces fijamos la orientación de descenso mediante
(10)
donde es el -ésimo vector canónico: el que corresponde a la variable .
Ahora, usando la fórmula de actualización (2), el tamaño de paso se calcula mediante:
(11)
Donde hemos aproximado por la serie de Taylor de segundo orden. Abusando de la notacióm, continuamos llamando al modelo de segundo orden, entonces de tenemos
(11)
Por lo que es facil resolver para :
(12)
Esto es simplemente
(13)
Donde hemos definido
, por lo que que corresponde al elemento -ésimo de la diagonal de matriz Hassianan . Ahora sustitumos en (2) y tenemos que para la iteración actualizamos la variable mediante:
(14)
donde es tamaño de paso que garantice que la funcion descienda, porque garantiza descenso en el modelo pero no en la función objetivo .
Ahora consideremos el caso simple en que la función objetivo es cuadrática, es decir de la forma
(15)
Entonces, la solución se encuentra mediante la solución de , que corresponde a resolver el sistema lineal:
donde es la matriz Hessiana y es simétrica, pues asumimos suave y sea el renglón -ésimo de :
Ahora, la actualización (14) corresponde a
(16)
Que para es el Método de Gauss-Seidel (GS); para es la versión amortiguada y para es la sobre-relajada.
Observe que
la división sobre el elemento de la diagonal en (16) es la razón por la que se realiza pivoteo; esto es, para evitar dividir entre un número muy pequeño; y
la derivación del método GS partir de un problema de optimización nos permite analizar la importancia de que el sistema sea diagonal dominante: para que los eigenvectores de la matriz Hessianan estén cercanos a las direcciones de descenso (los vectores canónicos) y, consecuentemente, cada iteración haga un gran avance. Si descendieramos por usando los eigenvectores, el algoritmo convergería en a lo mas iteraciones; ver la derivación de Gradiente Conjugado en [1]_.