Pruebas de Hipótesis — 12:01 min#

  • 12:01 min | Ultima modificación: Octubre 17, 2021 | YouTube

Puntos clave:

  • También son conocidas como pruebas de significancia.

  • Ayudan a determinar cuando una situación aleatoria es responsable de un resultado o efecto observado.

  • Las personas tienen la tendencia a subestimar los efectos aleatorios, como la dificultad para anticipar eventos extremos aleatorios, o a malinterpretar aleatoridad asignando patrones causales inexistentes.

  • Se desear determinar si el resultado que se ve es más extremo del resultado que se podría dar aleatoriamente de forma razonable.

  • Este es un tipo de prueba que tiene como fin probar una hipótesis (o supuesto o línea base), H_0, sobre un parámetro o característica de la población versus una hipótesis alternativa complementaria H_a, a partir de una muestra de la población.

  • Si \theta denota un estadístico de la muestra, entonces una prueba de hipótesis es una regla que indica cuando aceptar o rechazar la hipótesis nula:

    • H_0: \theta \sim (·)

    • H_a: \text{ en caso contrario}

  • Existen diferentes tipos de errores que se dan dependiendo de las siguientes situaciones:

    assets/errores-tipo-I-y-II.jpg

    • Aceptar H_0 cuando H_0 es verdadera: Ok!.

    • Rechazar H_0 cuando H_0 es falsa: Ok!.

    • Rechazar H_0 cuando H_0 es verdadera: Error Tipo I.

    • Aceptar H_0 cuando H_0 es falsa: Error Tipo II.

  • Los cuatro casos considerados están estrechamente relacionados con las matrices de confusión en clasificadores. Por ejemplo, cuando se acepta H_0 y H_0 es verdadera se tiene un verdadero positivo. Los demás casos se interpretan igual.

  • Existen los siguientes tipos de pruebas:

    • H_0: \theta = a, \quad H_a: \theta < a, cola a la izquierda.

    • H_0: \theta = a, \quad H_a: \theta \ne a, dos colas.

    • H_0: \theta = a, \quad H_a: \theta > a, cola a la derecha.


En los tres casos, se desea saber si el valor a está en la región blanca o en la región sombreada de las siguientes figuras. En el caso de la cola a la izquierda, se espera que si a realmente no pertenece a la distribución de probabilidades estipulada, se encuentre ubicado en la región gris y por tanto se pueda rechazar la hipotesis nula; si se supone que a = 1.75, entonces como está ubicado en la región blanca se acepta.

assets/valores-criticos.jpg


Prueba usando valores críticos

En esta aproximación:

  • Se definen las hipótesis nula y alternativa.

  • Se computa el estadístico a partir de la muestra (el valor de a).

  • Se determina el valor crítico \alpha a partir del nivel de confianza de la prueba usando la distribución conocida que sigue el estadístico; el valor crítico es un valor pequeño, típicamente el nivel de confianza es igual a 0.01, 0.05 o 0.10. El valor critico permite definir el tamaño de la región o regiones sombreadas en la figura anterior.

  • Si el valor del estadístico es más crítico que el valor crítico calculado se rechaza H_0; en caso contrario se acepta H_0 como verdadera.

Ejemplo.— El estadístico \theta computado a partir de la muestra de datos es 1.75. Determine si la hipótesis nula se acepta o se rechaza para un nivel de confianza de 5% cuando:

  • \theta \sim \text{N}(0,1) con cola a la izquierda.

  • \theta \sim \text{N}(0,1) con dos colas.

  • \theta \sim \text{N}(0,1) con cola a la derecha.

Solución. Para ilustrar el proceso de solución se usará la figura de abajo.

  • Para la cola a la izquierda se obtiene el valor de z tal que el área sombreada bajo la curva sea de 0.05 (nivel de confianza); esto es, z=-1.6449. Esto es lo mismo que decir que el estadístico de interés caerá el 95% de las veces en el área blanca. Como \theta=1.75 está en la región no sombreada, se acepta H_0.

[1]:
from scipy.stats import norm
[2]:
#
# Area entre -inf y z tal que el area sea 5%
#
norm.ppf(0.05)
[2]:
-1.6448536269514729
  • Para el caso de dos colas, el área sombreada total debe ser igual a 0.05, es decir, cada una de las dos regiones sombreadas debe tener un área de 0.025. En este caso, z=\pm 1.9600. Ya que para una confianza de 0.05, ocurre que -1.96 \le \theta \le 1.96 el 95% de las veces, se acepta H_0 para \theta = 1.75.

[3]:
#
# Area entre -inf y z tal que el area sea 5%/2
# los puntos +/- z son simétricos respecto al origen
#
norm.ppf(0.05 / 2)
[3]:
-1.9599639845400545
  • Para el caso de la cola a la derecha, el área sombreada debe ser igual a 0.05; esto ocurre cuando z = 1.6449. Es decir, el 95% de las veces ocurrirá que -\infty \le \theta \le 1.6449, entonces se rechaza H_0.

[4]:
#
# Area entre -inf y z tal que el area sea 95%
#
norm.ppf(0.95)
[4]:
1.6448536269514722

(véase la figura anterior).

Actividad.— Repita el ejercicio anterior para niveles de confianza del 0.01 y el 0.10.


Prueba usando el valor-:math:`p`:

En esta aproximación:

  • Se definen las hipótesis nula y alternativa.

  • Se computa el estadístico a partir de la muestra.

  • Se calcula el valor-p usando la distribución conocida que sigue el estadístico. Este es el valor del área de la distribución de probabilidades en que se rechaza la hipótesis nula.

  • Se establece el nivel de significancia \alpha (típicamente 0.01, 0.05 o 0.10) y se compara con el valor-\alpha.

  • Si el valor-p es menor o igual a \alpha se rechaza H_0; en caso contario se acepta.

Ejemplo.— El estadístico \theta computado a partir de la muestra de datos es 1.75. Determine si la hipótesis nula se acepta o se rechaza para un nivel de confianza de 0.05 cuando:

  • \theta \sim \text{N}(0,1) con cola a la izquierda.

  • \theta \sim \text{N}(0,1) con dos colas.

  • \theta \sim \text{N}(0,1) con cola a la derecha.

Solución. Para ilustrar el proceso de solución se usará la figura de abajo.

  • Para la cola a la izquierda se obtiene el valor-p para \theta=1.75, es decir, el área sombreada bajo la curva, o valor-p = 0.9599. Ya que el valor-p = 0.9599 > 0.05 (nivel de confianza) se acepta H_0.

[5]:
#
# Area entre -inf y 1.75
#
norm.cdf(1.75)
[5]:
0.9599408431361829
  • Para el caso de dos colas, el área sombreada bajo la curva es 0.0801 (valor-p); ya que 0.0801 > 0.05 (nivel de confianza), entonces se acepta H_0.

[6]:
#
# Area entre -inf y -1.75 mas 1.75 e +inf, simétricas
#
2 * norm.cdf(-1.75)
[6]:
0.08011831372763417
  • Para el caso de la cola a la derecha, el área sombreada es 0.0401; ya que valor-p = 0.0401 < 0.05 se rechaza H_0.

[7]:
#
# Area entre 1.75 y +inf =
#   1.0 - area entre -inf y 1.75
#
1.0 - norm.cdf(1.75)
[7]:
0.040059156863817114

assets/p-value.jpg

Actividad.— Si \theta=2.98 y \theta sigue una distribución log-normal con \mu=0 y \sigma=1 determine si H_0, ¿Se acepta o se rechaza para la cola a la derecha?.