Distribución F#
En términos generales, un problema comun es probar multiples tratamientos sobre grupos, por ejemplo, diferentes fertilizantes sobre diferentes parcelas de un campo con el fin de determinar si hay una diferencia estadisticamente significativa entre ellos.
En términos de ML, se desearía poder establecer la relevancia del impacto que tiene una variable continua x_i sobre una variable dependiente continua y.
En esta prueba, se desea establecer cual impacto es mayor que el esperado bajo una variación aleatoria normal.
Los puntos anteriores definen el razonamiento en que se basa la prueba F.
Formalmente, esta distribución es definida de la siguiente forma: Sean x_i, y_j \sim \text{N}(0, 1), para i=1,..., n y j=1,...,m, entonces:
F = \frac{\sum_{i=1}^n x_i^2 / n}{\sum_{j=1}^m y_i^2} \sim F_{n,m}