SVC (Support Vector Classifier)#

### Función de riesgo

La estimación de los parámetros del modelo y la correspondiente selección de los vectores de soporte se realiza mediante la minimización de la función de riesgo regularizado de la forma:

R(C, \epsilon) = C \sum_i \text{loss}(d_i, y_i) + \sum_d w_d^2

La función de pérdida utilizada depende del tipo de implementación.

El término

K(x_i, x_j) = \phi(x_i)^T \phi(x_j)

donde \phi(\cdot) es una función kernel, y el término anterior corresponde al Kernel Trick.

Estimación de parámetros#

Sea un conjunto de patrones de entrenamiento \mathbf{x}_i \in \mathbb{R}^p, i=1, \dots, n, y y_i la variable dependiente con y \in \{-1, +1 \}, el objetivo es encontrar w \in \mathbb{R}^p y b \in \mathbb{R}, tal que la ecuación anterior sea correcta para la mayor cantidad de patrones.

Para la clasificación, esto equivale a resolver el problema primal:

\min_{w,b, \zeta} \;\;\; \frac{1}{2} w^T w \; + \; C \sum_{i=1}^n \zeta_i

sujeto a:

\begin{split} y_i \left( w^T \phi(x_i)+ b \right) \ge \; & 1 - \zeta_i \\ \\ \zeta_i \ge & \; 0 \\ \\ i= & 1, ..., n \\ \end{split}

Una explicación intuitiva es la siguiente:

  • Para llegar al óptimo se debe minimizar 0.5 w^Tw, es decir, se desean llevar los coeficientes a cero.

  • w^T \phi(x_i)+ b es la frontera de decisión entre las clases

  • Si un patrón es correctamente clasificado, entonces \zeta = 0.

  • Si un patrón es mal clasificado, \zeta > 0 haciendo crecer el segundo término de la función objetivo.


  • El parámetro C controla la fuerza de la penalización, y como resultado, actua como el inverso de un parámetro de regularización.

Problema dual#

El problema dual del primal es:

\min_\alpha \frac{1}{2} \alpha^T Q \alpha - e^T \alpha

sujeto a:

y^T\alpha = 0

0 \le \alpha_i \le C, \qquad i=1,\dots n


  • e es un vector de unos.

  • Q es una matriz semidefinida positiva de n \times n.

  • Q_{ij} = y_i y_j K(x_i, x_j)

  • K(x_i, x_j) = \phi(x_i)^T \phi(x_j)

  • \alpha_i son los coeficientes duales

### Frontera de decisión

Una vez el problema de optimización ha sido resuelto, la función de decisión se computa para una muestra x como:

\sum_{i \text{ in } SV} y_i \alpha_i K(x_i, x) + b

from sklearn.datasets import make_blobs


X, d = make_blobs(
import matplotlib.pyplot as plt

plt.figure(figsize=(3.5, 3.5))
plt.scatter(X[:50, 0], X[:50, 1], color="red", edgecolors="black", alpha=0.9, s=50)
    X[50:100, 0], X[50:100, 1], color="blue", edgecolors="black", alpha=0.9, s=50
plt.scatter(X[100:, 0], X[100:, 1], color="green", edgecolors="black", alpha=0.9, s=50)

from sklearn.svm import SVC

svc = SVC(
), d)
import numpy as np

plt.figure(figsize=(3.5, 3.5))

xx, yy = np.meshgrid(
    np.arange(X[:, 0].min() - 1, X[:, 0].max() + 1, 1),
    np.arange(X[:, 1].min() - 1, X[:, 1].max() + 1, 1),

zz = svc.predict(np.c_[xx.ravel(), yy.ravel()])
zz = zz.reshape(xx.shape)
plt.contourf(xx, yy, zz,, alpha=0.7)

plt.scatter(X[:50, 0], X[:50, 1], color="red", edgecolors="black", alpha=1.0, s=50)
    X[50:100, 0], X[50:100, 1], color="blue", edgecolors="black", alpha=1.0, s=50
plt.scatter(X[100:, 0], X[100:, 1], color="green", edgecolors="black", alpha=1.0, s=50)

plt.gca().set_aspect("equal", adjustable="box")
plt.gca().set_xlim(xx.min(), xx.max())
plt.gca().set_ylim(yy.min(), yy.max())