Definiciones fundamentales —#
0:00 min | Ultima modificación: Octubre 15, 2021 | [YouTube]
La estadística tiene como fin derivar conclusiones sobre una población a partir de un experimento.
Una población es una colección de objetos, datos o individuos (reales, teóricos o imaginarios) sobre los cuales se desea obtener información de interés.
Un parámetro es un valor que resume una propiedad o característica de la población entera.
Usualmente no se tiene acceso a la población para realizar calcular el parámetro de interés, por lo que este debe ser calculado sobre una muestra.
Una muestra es un grupo obtenido aleatoriamente que es representativo de la población.
El muestreo aleatorio es un muestreo de elementos donde cada miembro de la población tiene igual probabilidad de ser seleccionado.
Una muestra aleatoria simple resulta de muestrear la población sin estratificar.
Una muestra sesgada es una muestra que no representa la población.
En el muestreo aleatorio con reemplazo, un elemento seleccionado es devuelto a la población, de tal forma que puede ser seleccionado nuevamente (reemplazado con una copia identica de él).
En el muestreo aleatorio sin reemplazo, un elemento que ya ha sido seleccionado, no puede ser seleccionado nuevamente.
En el muestreo estratificado la población es dividida en estratos y cada estrato es muestreado aleatoriamente.
Un estrato es un subgrupo de la población que tiene características comunes.
Un estadístico (muestral) es un valor que resume una propiedad o característica de una muestra.
La distribución muestral es la distribución de probabilidad de un estadístico muestral calculado sobre muchas muestras o remuestreos.
El error estándar es la desviación estándar del estadístico muestral sobre muchas muestras.
El sesgo estadístico se refiere a los errores de muestreo o medición que son sistemáticos y producidos por la medición o el muestreo mismo.
El sesgo de selección se refiere a la práctica de escoger selectivamente los datos (de forma consciente o inconsciente) en una forma que lleva a una conclusión erronea.
El término data snooping es la investigación intensa de los datos hasta que algo interesante emerge.
If you torture the data long enought, sooner or later it will confess.
Para aclara el término data snooping considere el siguiente ejemplo:
Una persona le dice que es capaz de obtener 10 caras al lanzar una moneda; usted lo desafia y esa persona obtiene las 10 caras. Esto indica una habilidad especial de la persona.
Tome un estadio con 20.000 personas y pidales que lancen la moneda 10 veces. Que una persona obtenga 10 caras seguidas no indica que dicha persona tenga una habilidad especial.
El sesgo de regresión a la media se refiere a fenómenos que involucran medidas sucesivas de una variable: observaciones extremas tienden a ser seguidas por observaciones más cercanas a la media.
Considere los jugadores que inician su vida profesional en una temporada. Uno de ellos sobresalira del resto, pero su desempeño no será el mismo para la segunda temporada. ¿Por qué? Pista/ esto se debe a que el desempeño será una mezcla de habilidades y suerte.
La inferencia estadística tiene como fin generar una conclusión sobre la población a partir de una muestra de datos (ruidosa).
Los objetivos de la inferencia estadística son:
Estimar y cuantificar la incertidumbre de un estimado de un parámetro de la población.
Determinar cuando una cantidad es un valor benchmark.
Inferir relaciones enetre cantidades medidas con ruido.