Pruebas de Hipótesis — 12:01 min#
12:01 min | Ultima modificación: Octubre 17, 2021 | YouTube
Puntos clave:
También son conocidas como pruebas de significancia.
Ayudan a determinar cuando una situación aleatoria es responsable de un resultado o efecto observado.
Las personas tienen la tendencia a subestimar los efectos aleatorios, como la dificultad para anticipar eventos extremos aleatorios, o a malinterpretar aleatoridad asignando patrones causales inexistentes.
Se desear determinar si el resultado que se ve es más extremo del resultado que se podría dar aleatoriamente de forma razonable.
Este es un tipo de prueba que tiene como fin probar una hipótesis (o supuesto o línea base), H_0, sobre un parámetro o característica de la población versus una hipótesis alternativa complementaria H_a, a partir de una muestra de la población.
Si \theta denota un estadístico de la muestra, entonces una prueba de hipótesis es una regla que indica cuando aceptar o rechazar la hipótesis nula:
H_0: \theta \sim (·)
H_a: \text{ en caso contrario}
Existen diferentes tipos de errores que se dan dependiendo de las siguientes situaciones:
Aceptar H_0 cuando H_0 es verdadera: Ok!.
Rechazar H_0 cuando H_0 es falsa: Ok!.
Rechazar H_0 cuando H_0 es verdadera: Error Tipo I.
Aceptar H_0 cuando H_0 es falsa: Error Tipo II.
Los cuatro casos considerados están estrechamente relacionados con las matrices de confusión en clasificadores. Por ejemplo, cuando se acepta H_0 y H_0 es verdadera se tiene un verdadero positivo. Los demás casos se interpretan igual.
Existen los siguientes tipos de pruebas:
H_0: \theta = a, \quad H_a: \theta < a, cola a la izquierda.
H_0: \theta = a, \quad H_a: \theta \ne a, dos colas.
H_0: \theta = a, \quad H_a: \theta > a, cola a la derecha.
En los tres casos, se desea saber si el valor a está en la región blanca o en la región sombreada de las siguientes figuras. En el caso de la cola a la izquierda, se espera que si a realmente no pertenece a la distribución de probabilidades estipulada, se encuentre ubicado en la región gris y por tanto se pueda rechazar la hipotesis nula; si se supone que a = 1.75, entonces como está ubicado en la región blanca se acepta.
Prueba usando valores críticos
En esta aproximación:
Se definen las hipótesis nula y alternativa.
Se computa el estadístico a partir de la muestra (el valor de a).
Se determina el valor crítico \alpha a partir del nivel de confianza de la prueba usando la distribución conocida que sigue el estadístico; el valor crítico es un valor pequeño, típicamente el nivel de confianza es igual a 0.01, 0.05 o 0.10. El valor critico permite definir el tamaño de la región o regiones sombreadas en la figura anterior.
Si el valor del estadístico es más crítico que el valor crítico calculado se rechaza H_0; en caso contrario se acepta H_0 como verdadera.
Ejemplo.— El estadístico \theta computado a partir de la muestra de datos es 1.75. Determine si la hipótesis nula se acepta o se rechaza para un nivel de confianza de 5% cuando:
\theta \sim \text{N}(0,1) con cola a la izquierda.
\theta \sim \text{N}(0,1) con dos colas.
\theta \sim \text{N}(0,1) con cola a la derecha.
Solución. Para ilustrar el proceso de solución se usará la figura de abajo.
Para la cola a la izquierda se obtiene el valor de z tal que el área sombreada bajo la curva sea de 0.05 (nivel de confianza); esto es, z=-1.6449. Esto es lo mismo que decir que el estadístico de interés caerá el 95% de las veces en el área blanca. Como \theta=1.75 está en la región no sombreada, se acepta H_0.
[1]:
from scipy.stats import norm
[2]:
#
# Area entre -inf y z tal que el area sea 5%
#
norm.ppf(0.05)
[2]:
-1.6448536269514729
Para el caso de dos colas, el área sombreada total debe ser igual a 0.05, es decir, cada una de las dos regiones sombreadas debe tener un área de 0.025. En este caso, z=\pm 1.9600. Ya que para una confianza de 0.05, ocurre que -1.96 \le \theta \le 1.96 el 95% de las veces, se acepta H_0 para \theta = 1.75.
[3]:
#
# Area entre -inf y z tal que el area sea 5%/2
# los puntos +/- z son simétricos respecto al origen
#
norm.ppf(0.05 / 2)
[3]:
-1.9599639845400545
Para el caso de la cola a la derecha, el área sombreada debe ser igual a 0.05; esto ocurre cuando z = 1.6449. Es decir, el 95% de las veces ocurrirá que -\infty \le \theta \le 1.6449, entonces se rechaza H_0.
[4]:
#
# Area entre -inf y z tal que el area sea 95%
#
norm.ppf(0.95)
[4]:
1.6448536269514722
(véase la figura anterior).
Actividad.— Repita el ejercicio anterior para niveles de confianza del 0.01 y el 0.10.
Prueba usando el valor-:math:`p`:
En esta aproximación:
Se definen las hipótesis nula y alternativa.
Se computa el estadístico a partir de la muestra.
Se calcula el valor-p usando la distribución conocida que sigue el estadístico. Este es el valor del área de la distribución de probabilidades en que se rechaza la hipótesis nula.
Se establece el nivel de significancia \alpha (típicamente 0.01, 0.05 o 0.10) y se compara con el valor-\alpha.
Si el valor-p es menor o igual a \alpha se rechaza H_0; en caso contario se acepta.
Ejemplo.— El estadístico \theta computado a partir de la muestra de datos es 1.75. Determine si la hipótesis nula se acepta o se rechaza para un nivel de confianza de 0.05 cuando:
\theta \sim \text{N}(0,1) con cola a la izquierda.
\theta \sim \text{N}(0,1) con dos colas.
\theta \sim \text{N}(0,1) con cola a la derecha.
Solución. Para ilustrar el proceso de solución se usará la figura de abajo.
Para la cola a la izquierda se obtiene el valor-p para \theta=1.75, es decir, el área sombreada bajo la curva, o valor-p = 0.9599. Ya que el valor-p = 0.9599 > 0.05 (nivel de confianza) se acepta H_0.
[5]:
#
# Area entre -inf y 1.75
#
norm.cdf(1.75)
[5]:
0.9599408431361829
Para el caso de dos colas, el área sombreada bajo la curva es 0.0801 (valor-p); ya que 0.0801 > 0.05 (nivel de confianza), entonces se acepta H_0.
[6]:
#
# Area entre -inf y -1.75 mas 1.75 e +inf, simétricas
#
2 * norm.cdf(-1.75)
[6]:
0.08011831372763417
Para el caso de la cola a la derecha, el área sombreada es 0.0401; ya que valor-p = 0.0401 < 0.05 se rechaza H_0.
[7]:
#
# Area entre 1.75 y +inf =
# 1.0 - area entre -inf y 1.75
#
1.0 - norm.cdf(1.75)
[7]:
0.040059156863817114
Actividad.— Si \theta=2.98 y \theta sigue una distribución log-normal con \mu=0 y \sigma=1 determine si H_0, ¿Se acepta o se rechaza para la cola a la derecha?.