Formulación matemática#

  • Ultima modificación: 2023-03-11 | YouTube

  • Un arbol de decisión particiona el espacio de las características, tal que ejemplos pertenecientes a la misma clase o valores similares de la variable dependiente son agrupados en los nodos terminales.

  • La calidad de una posible partición se mide con el indice de Gini.

  • En clasificación, la impureza de Gini mide la probabilidad de que un elemento escogido aleatoriamente de la muestra de datos, le sea asignada una clase incorrecta, de acuerdo con la distribución de clases en el conjunto de datos; esto es, se desea maximizar la probabilidad de que el patrón sea clasificado correctamente. Por tanto, se desea minimizar la probabilidad de asignar una clase errónea.

  • Si se tienen J clases, y si se denota como p_i la probabilidad de ocurrencia de la clase i (con i \in \{1, ..., J\}, la probabilidad de que a un elemento de la clase i se le asigne otra clase es:

p_i \cdot \sum_{k\ne i} p_k

  • Ya que la función de impureza es computada sobre todas las clases, entonces:

\begin{split} G & = \sum_{i=1}^J \left( p_i \cdot \sum_{k\ne i} p_k \right) \\ \\ & = \sum_{i=1}^J p_i \cdot (1 - p_i) \\ \\ & = \sum_{i=1}^J \left( p_i - p_i^2 \right) \\ \\ & = \left(\sum_{i=1}^J p_i \right) - \left(\sum_{i=1}^J p_i^2 \right) \\ \\ & = 1 - \sum_{i=1}^J p_i^2 \end{split}

  • En términos prácticos, el siguiente nodo a particionar es el que genera la máxima reducción del índice de Gini.

  • La entropia se basa en el concepto de ganancia de información, y en términos prácticos, se selecciona el nodo a particionar, como aquel que generare la máxima ganancia de información.