Definición#

Ultima modificación: 2023-03-11 | YouTube

Es un metodo de aprendizaje supervisado no paramétrico usado para clasificación y regresión.

El modelo aprende reglas de decisión simples que pueden ser inferidas de los datos.

Scikit-learn implementa el algoritmo CART.

Su estructura puede interpretarse como un árbol de decisiones, el cual parte del dominio de las variables independienes en regiones. Para decidir que región asignar a un nuevo punto (x_1, x_2) simplemente se recorre el árbol de decisión usando los valores x_1 y x_2.

assets/tree.jpg

El árbol de la derecha puede interpretarse como un conjunto de reglas if anidadas:

if x2 > C then
   class = azul
else
   if x1 < A then
       class = verde
   else
       if x2 < B then
           class = rojo
       else
           class = amarillo
       end if
   end if
end if

Sus ventajas son las siguientes:
- Es fácil de entender e interpretar, y puede ser visualizado.
- Requere poca preparación de la data. No requiere normalización ni creación de variables dummy.
- Es computacionalmente eficiente en pronóstico.
- Se considera un modelo de caja blanca, es decir, es facil explicar un resultado entregado por el modelo.
- Es posible validar el modelo usando técnicas estadísticas.
- Tiene un buen comportamiento aunque se violen los supuestos de los datos que fueron usados para entrenar el modelo.

Su desventajas son las siguientes:
- Pueden presentar sobreajuste.
- Pueden ser inestables, es decir, pequeñas variaciones en los datos pueden producir árboles completamente diferentes.
- La predicción es brusca y discontinua, similar a los modelos lineales por tramos.
- No son buenos modelos para extrapolar.
- La obtención de un árbol de decisión óptimo es tipo NP-completo, por lo que se usan algoritmos heurísticos.
- Existen conceptos que un árbol no puede expresar fáciltmente como los problemas XOR, paridad o multiplexers.

Para su uso práctico se deben tener en cuenta los siguientes puntos:
- Los árboles decisión tienden a sobreajustar datasets con un número grande de características.
- Se recomienda utilizar técnicas de reducción de la dimensinalidad (PCA, ICA, selección de características) antes de entrenar el árbol.
- Se debe analizar la estructura del árbol de decisión y visualizarla.
- Se debe controlar la profundidad del árbol para prevenir sobreajuste.
- Se debe controlar el número mínimo de patrones asociados a un nodo.
- En clasificación el dataset debería ser balanceado para evitar que el árbol se sesge hacia la clase más frecuente.
- En lo posible se deben usar pesos para los patrones o ejemplos, con el fin de facilitar la optimización del árbol.