Remuestreo y test de permutación#
Es muestrear repetidamente datos de la muestra observada con el fin general de estimar la aleatoridad de un estadístico.
Se puede utilizar para medir o mejorar la precisión en algunos modelos de ML (por ejemplo, bagging)
Existe dos técnicas básicas de remuestreo:
Boostrap, usado para estimar la distribución de probabilidad de un estimado.
Permutación, usada para realizar pruebas de hipótesis.
Ejemplo
Supongase que se tiene una tabla con los siguientes datos
x y -------- x1 y1 x2 y2 . . xn yn
y se calcula el coeficiente de correlación entre ellas.
Para saber si efectivamente el valor del estadístico es significativo (si existe una relación entre las variables) se puede realizar un test de permutación.
El test se basa en obtener una muestra de valores aleatorios posibles del estadistico. Cada valor aleatorio se obtiene de la siguiente manera:
Se mezclan los valores de la columna x, por ejemplo:
x y
x5 y1
x1 y2
. .
x90 yn
Se calcula el estadístico para la muestra obtenida en el paso a).
Se evalua si el estadístico calculado originalmente está en la región del p% de confianza de la distribución de los datos.
Para el test de permutación se pueden considerar dos tipos:
El test de permutación exhaustivo, donde se generan todas las permutaciones posibles.
El test de permutación bootstrap, donde las permutaciones son generadas usando bootstrap.