Dificultad de entrenamiento de un MLP#

En sklearn, los parámetros del modelo son obtenidos minimizando el suma de errores cuadrados (SSE):

\min_w ||e||_2^2

utilizando el algoritmo de gradiente descendente (o alguna variación de este).

Dificultad 1. La forma de la superficie del SSE es irregular y no convexa con muchos puntos de mínima local. El algoritmo de gradiente descendente puede quedar atrapado en los mínimos locales.

Dificultad 3. Una misma configuración de red neuronal puede tener multiples puntos de mínima local con el mismo valor del SSE.
- Considere un modelo con una entrada y dos neuronas ocultas con la siguiente notación:
  - b: peso de la neurona bias de la capa de salida.
  - bh {h=1, 2} peso de las neuronas bias de la capa oculta.
  - wih {i=1; h=1,2} pesos de la capa de entrada a la capa oculta.
  - mh {h=1,2} pesos de las neuronas ocultas a la capa de salida.
- El algoritmo de optimización opera sobre un vector que agrupa los parámetros del modelo:
  
  [b, b1, b2, w11, w12, m1, m2]
- Si se intercambian las posiciones de las dos neuronas ocultas, incluyendo los pesos que entran y salen de cada una de ellas, se obtiene un nuevo vector que tiene el mismo SSE del modelo original:
  
  [b, b2, b1, w12, w11, m2, m1]

Dificultad 4. A medida que se agregan neuronas a la capa oculta, el SSE deberia disminuir para el conjunto de datos de entrenamiento, hasta ser arbitrariamente cercano a cero, pero esto no pasa en la realidad.