Definición#

  • Ultima modificación: 2023-03-11 | YouTube

  • Es un metodo de aprendizaje supervisado no paramétrico usado para clasificación y regresión.

  • El modelo aprende reglas de decisión simples que pueden ser inferidas de los datos.

  • Scikit-learn implementa el algoritmo CART.

  • Su estructura puede interpretarse como un árbol de decisiones, el cual parte del dominio de las variables independienes en regiones. Para decidir que región asignar a un nuevo punto (x_1, x_2) simplemente se recorre el árbol de decisión usando los valores x_1 y x_2.

assets/tree.jpg

  • El árbol de la derecha puede interpretarse como un conjunto de reglas if anidadas:

    if x2 > C then
       class = azul
    else
       if x1 < A then
           class = verde
       else
           if x2 < B then
               class = rojo
           else
               class = amarillo
           end if
       end if
    end if
    
  • Sus ventajas son las siguientes:

    • Es fácil de entender e interpretar, y puede ser visualizado.

    • Requere poca preparación de la data. No requiere normalización ni creación de variables dummy.

    • Es computacionalmente eficiente en pronóstico.

    • Se considera un modelo de caja blanca, es decir, es facil explicar un resultado entregado por el modelo.

    • Es posible validar el modelo usando técnicas estadísticas.

    • Tiene un buen comportamiento aunque se violen los supuestos de los datos que fueron usados para entrenar el modelo.

  • Su desventajas son las siguientes:

    • Pueden presentar sobreajuste.

    • Pueden ser inestables, es decir, pequeñas variaciones en los datos pueden producir árboles completamente diferentes.

    • La predicción es brusca y discontinua, similar a los modelos lineales por tramos.

    • No son buenos modelos para extrapolar.

    • La obtención de un árbol de decisión óptimo es tipo NP-completo, por lo que se usan algoritmos heurísticos.

    • Existen conceptos que un árbol no puede expresar fáciltmente como los problemas XOR, paridad o multiplexers.

  • Para su uso práctico se deben tener en cuenta los siguientes puntos:

    • Los árboles decisión tienden a sobreajustar datasets con un número grande de características.

    • Se recomienda utilizar técnicas de reducción de la dimensinalidad (PCA, ICA, selección de características) antes de entrenar el árbol.

    • Se debe analizar la estructura del árbol de decisión y visualizarla.

    • Se debe controlar la profundidad del árbol para prevenir sobreajuste.

    • Se debe controlar el número mínimo de patrones asociados a un nodo.

    • En clasificación el dataset debería ser balanceado para evitar que el árbol se sesge hacia la clase más frecuente.

    • En lo posible se deben usar pesos para los patrones o ejemplos, con el fin de facilitar la optimización del árbol.