Remuestreo y test de permutación#

  • Es muestrear repetidamente datos de la muestra observada con el fin general de estimar la aleatoridad de un estadístico.

  • Se puede utilizar para medir o mejorar la precisión en algunos modelos de ML (por ejemplo, bagging)

  • Existe dos técnicas básicas de remuestreo:

    • Boostrap, usado para estimar la distribución de probabilidad de un estimado.

    • Permutación, usada para realizar pruebas de hipótesis.


Ejemplo

  • Supongase que se tiene una tabla con los siguientes datos

      x   y
    --------
     x1  y1
     x2  y2
      .   .
     xn  yn
    

    y se calcula el coeficiente de correlación entre ellas.

  • Para saber si efectivamente el valor del estadístico es significativo (si existe una relación entre las variables) se puede realizar un test de permutación.

  • El test se basa en obtener una muestra de valores aleatorios posibles del estadistico. Cada valor aleatorio se obtiene de la siguiente manera:

    1. Se mezclan los valores de la columna x, por ejemplo:

      x y

      x5 y1

      x1 y2

      . .

      x90 yn

    2. Se calcula el estadístico para la muestra obtenida en el paso a).

  • Se evalua si el estadístico calculado originalmente está en la región del p% de confianza de la distribución de los datos.


  • Para el test de permutación se pueden considerar dos tipos:

    • El test de permutación exhaustivo, donde se generan todas las permutaciones posibles.

    • El test de permutación bootstrap, donde las permutaciones son generadas usando bootstrap.