La distribución normal#

  • La distribución normal fue esencial en el desarrollo histórico de la estadísitca, ya que permitio una aproximación matemática de la incertidumbre y la variabilidad. Consulte su historia en Wikipedia.

  • Usualmente los datos en bruto no son normalmente distribuidos, pero los errores si lo son, así como los promedios y los totales sobre grandes muestras.

  • La función de densidad de probabilidad de una distribución normal con media \mu y varianza \sigma^2 se define como:

f(x | \mu, \sigma^2) =\frac{1}{\sigma \sqrt{2\pi}} \exp \left\{ -\frac{1}{2} \frac{(x-\mu)^2}{\sigma^2} \right\}

  • Los momentos de una istribución normal son:

    • M_1 = \mu

    • M_2 = \sigma^2

    • M_3 = 0

    • M_4 = 3\sigma^2


En la siguiente figura se observan diferentes distribuciones normales que varian en su media y varianza.

[1]:
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm

plt.figure(figsize=(8, 6))
x = np.linspace(-4, +4, 100)
plt.plot(x, norm.pdf(x, loc=0.0, scale=np.sqrt(0.2)), "r-", lw=2, alpha=0.6, label="")
plt.plot(
    x, norm.pdf(x, loc=-2.0, scale=np.sqrt(0.5)), "b-", lw=2, alpha=0.6, label=""
)
plt.plot(x, norm.pdf(x, loc=0.0, scale=np.sqrt(1.0)), "k-", lw=2, alpha=0.6, label="")
plt.gca().spines["left"].set_color("gray")
plt.gca().spines["bottom"].set_color("gray")
plt.gca().spines["top"].set_visible(False)
plt.gca().spines["right"].set_visible(False)
plt.show()
../_images/01_estadistica_inferencial_09_distribucion_normal_7_0.png

Propiedades útiles:

  • Sean x \sim \text{N}(\mu_x, \sigma^2_x) y y \sim \text{N}(\mu_y, \sigma^2_y), entonces:

    x + y \sim \text{N}\left(\mu_x + \mu_y, \sigma_x^2 + \sigma_y^2\right)

  • Sea x \sim \text{N}(\mu_x, \sigma^2_x) y los números reales arbitrarios a y b, entonces:

ax + b \sim \text{N}\left(a \mu_x + b, a^2 \sigma_x^2\right)

  • Sean x \sim \text{N}(\mu_x, \sigma^2_x) y \varepsilon \sim \text{N}(0, 1^2), entonces:

x \sim \mu + \sigma \varepsilon


Distribución Normal Estándar

  • La distribución normal estándar se obtiene al hacer \mu=0 y \sigma=1 en la distribución normal:

f(z) =\frac{1}{\sqrt{2\pi}} \exp \left\{ -\frac{1}{2} z^2 \right\}

  • La estandarización se define como:

    z = \frac{x-\mu}{\sigma}

  • Los intevalos de confianza corresponden a los valores de x para los cuales el área central de la normal es igual al porcentaje especificado. En la imagen presentada a continuación se grafican los intervalos de confianza para \pm \; 3 \sigma, \pm \; 2 \sigma y \pm \; \sigma, que equivalen a áreas del 99.73%, 95.44% y 68.26% respectivamente.

assets/intervalos-confianza.jpg


Los valores del área para cada caso se calcularían asi:

[2]:
# para +/- 3 * sigma
1.0 - 2 * norm.cdf(-3)
[2]:
0.9973002039367398
[3]:
# para +/- 2 * sigma
1.0 - 2 * norm.cdf(-2)
[3]:
0.9544997361036416
[4]:
# para +/- 1 * sigma
1.0 - 2 * norm.cdf(-1)
[4]:
0.6826894921370859

Gráfico QQ:

  • Es una gráfica que permite determinar visualmente que tan cercanos son los datos a una distribución teorica (usualmente la normal).

[5]:
from scipy.stats import probplot

sample = norm.rvs(size=100)
_ = probplot(sample, plot=plt.gca())
../_images/01_estadistica_inferencial_09_distribucion_normal_26_0.png