Distribución muestral de un estadístico#

  • Un estadístico muestral es una métrica calculada sobre una muestra de datos obtenida de una población.

  • La distribución de los datos hace referencia a la distribución de frecuencia de los valores individuales en una muestra o conjunto de datos.

  • La distribución muestral hace referencia a la distribución de frecuencias de un estadístico muestral calculado sobre muchas muestras.

  • El Teorema del límite central postula la distribución muestral tiende a tomar una forma normal a medida que el tamaño de la muestra crece.


[1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd


# Generación de una muestra de 1000 numeros aleatorios uniformes entre 0 y 10
sample_data = pd.Series(np.random.uniform(low=0, high=10, size=1000))

# Generación de 1000 muestras de la media de 5 numeros pertenecientes a sample_data
sample_mean_05 = [sample_data.sample(5).mean() for _ in range(1000)]

# Generación de 1000 muestras de la media de 20 numeros pertenecientes a sample_data
sample_mean_20 = [sample_data.sample(20).mean() for _ in range(1000)]

# Histogramas de las muestras de las medias
plt.figure(figsize=(10, 4))
plt.subplot(1, 2, 1)
plt.hist(sample_mean_05, density=True)
plt.xlim(0, 10)
plt.title("Media de 5 valores")

plt.subplot(1, 2, 2)
plt.hist(sample_mean_20, density=True)
plt.xlim(0, 10)
plt.title("Media de 20 valores")

plt.show()
../_images/01_estadistica_inferencial_05_distribucion_muestral_de_un_estadistico_6_0.png
  • El error estándar es la variabilidad de un estadístico muestral sobre muchas muestras. Se calcula como:

    \text{SE} = \frac{\sigma}{\sqrt{N}}

    donde:

    • N es el tamaño de la muestra. Para nuestro caso 5 y 20.

    • \sigma es la desviación estándar de la distribución de donde provienen los datos.

[2]:
np.std(sample_mean_05)
[2]:
1.2670319139259512
[3]:
np.std(sample_mean_20)
[3]:
0.6262910685320281

Formalmente el teorema del límite central postula lo siguiente:

  • Considere N variables aleatorias con pdf p(x_i), con media \mu y varianza \sigma^2.

  • Las variables X_i son independientes e identicamente distribuidas.

  • Sea

    S_N = \sum_{i=1}^N X_i

  • El teorema del límite central postula que a medida que N incrementa, la distribución de S_N tiende a una distribución normal, tal que:

    \frac{\bar{X}-\mu}{\sigma / \sqrt{N}}

    tiende a una distribución normal estandar con:

    \bar{X}=\frac{1}{N} \sum_{i=1}^N x_i

    Notese que la desviación estándar de la distribución es \sigma / \sqrt{N}.


[4]:
from scipy.stats import norm

# Para la distribución uniforme definida en [a, b]:
mu = 5  # (a + b) / 2
s2 = (10 - 0) ** 2 / 12  # (b - a)^2 /12
x = np.linspace(0, 10, 100)

plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
plt.hist(sample_mean_05, density=True, alpha=0.4)
plt.xlim(0, 10)
plt.title("Media de 5 valores")
plt.plot(x, norm.pdf(x, loc=mu, scale=np.sqrt(s2)/np.sqrt(5)), color='tab:blue', lw=4)


plt.subplot(1, 2, 2)
plt.hist(sample_mean_20, density=True, alpha=0.4)
plt.xlim(0, 10)
plt.title("Media de 20 valores")
plt.plot(x, norm.pdf(x, loc=mu, scale=np.sqrt(s2)/np.sqrt(20)), color='tab:blue', lw=4)

plt.show()
../_images/01_estadistica_inferencial_05_distribucion_muestral_de_un_estadistico_13_0.png
[5]:
# Desviación estándar para la media de 5 valores
np.sqrt(s2)/np.sqrt(5)
[5]:
1.2909944487358056
[6]:
# Desviación estándar para la media de 20 valores
np.sqrt(s2)/np.sqrt(20)
[6]:
0.6454972243679028