Contents Menu Expand Light mode Dark mode Auto light/dark mode
Programa Sklearn

Feb 5, 2024

Programa Sklearn

Feb 5, 2024

  • Introducción — 1:59:17
    • Introducción — 21:40
      • Introducción a scikit-learn — 21:48 min
    • Tutoriales básicos — 1:37:37
      • Introducción al ML con scikit-learn
      • Introducción al aprendizaje estadístico
      • Datos altamente dimensionales
      • Selección de estimadores y sus hiperparámetros
      • Aprendizaje no supervizado
      • Trabajo con datos textuales
  • Selección y evaluación de modelos
    • Conceptos básicos de validación cruzada — 1:33:51
      • El dilema sesgo vs varianza — 31:06
      • Conjuntos de entrenamiento y prueba (función train_test_split) — 15:59
      • Optimización usando Early-stopping — 21:16
      • Sensibilidad a la selección de datos — 08:09
      • Selección de hiperparámetros teniendo en cuenta la generalización — 9:40
      • Particionamiento de los datos en la práctica — 10:02
    • Cálculo de métricas de validación cruzada — 31:44
      • Evaluación de métricas con cross_validate — 6:44
      • Generación de estimados por cada entrada con cross_val_predict — 2:57
      • Evaluación de scores con cross_val_score — 2:45
      • Determinación del tamaño óptimo del dataset con learning_curve — 13:43
      • Test de permutación de un score con permutation_test_score — 7:34
    • Iteradores — 37:44
      • Particionamiento con KFold
      • Particionamiento con RepeatedKFold
      • Particionamiento con LeaveOneOut
      • Particionamiento con LeavePOut
      • Particionamiento con ShuffleSplit
      • Particionamiento con StratifedKFold
      • Particionamiento con StratifiedShuffleSplit
    • Ajuste de hiperparámetros — 25:08
      • Generación de combinaciones de hiperparámetros con ParameterGrid
      • Búsqueda Exhaustiva de hiperparámetros usando GridSearchCV
      • Muestreo de combinaciones de hiperparámetros con ParameterSampler
      • Búsqueda aleatoria de hiperparámetros usando RandomizedSearchCV
      • Regresión polinómica
    • Introducción al uso de métricas — 14:39
      • APIs para medir la calidad de las predicciones de los modelos
      • Valores predefinidos
      • Definición de estrategias de scoring
      • Evaluación con varias métricas
    • Métricas para clasificación — 1:27:40
      • Matriz de confusión
      • Accuracy Score
      • Top-k accuracy Score
      • Balanced Accuracy Score
      • Classification report
      • Hamming loss
      • Precision, recall y F-measures en el caso binario
      • Jaccard similarity coefficient score
      • Hinge loss
      • Log loss (logistic regression loss, cross-entropy loss)
      • Matthews correlation coefficient
      • Receiver operating characteristic
      • Zero one loss
    • Métricas para clasificación multietiqueta — 12:51
      • Coverage error
      • Label ranking average precision (LRAP)
      • Ranking loss
    • Métricas para regresión — 38:28
      • R2 Score o coeficiente de determinación
      • Mean absolute error (MAE)
      • Mean squared error (MSE)
      • Mean squared logarithmic error
      • Mean absolute percentage error
      • Median absolute error
      • Max error
      • Explained variance score
    • Métricas para agrupamiento
    • Estimadores ingenuos — 7:34
      • DummyClassifier
      • DummyRegressor
    • Curvas de validación — 10:29
      • Graficación de curvas de validación con validation_curve
      • Visualización de la curva de aprendizaje con LearningCurveDisplay
  • Inspección
    • Dependencia parcial y esperanza condicional
    • Permutation test importance
  • Visualización
    • Utilidades de visualización
  • Transformaciones — 3:02:50
    • Pipelines y estimadores compuestos — 38:49
      • Construcción de tuberias de estimadores con Pipeline y make_pipeline
      • Transformación de la variable pronósticada en regresión con TransformedTargetRegressor
      • Transformación de datos heterogeneos con ColumnTransformer
      • Aplicación en paralelo de transformadores usando FeatureUnion
      • Creación de transformadores personalizados con FunctionTransformer
    • Extracción de características — 38:29
      • Carga de características desde diccionarios usando DictVectorizer
      • Transformación de textos a características usando CountVectorizer
      • Representación TF-IDF
      • Creación de un pipeline para clasificación de texto
    • Preprocesamiento de datos — 45:48
      • StandardScaler
      • MinMaxScaler
      • MaxAbsScaler
      • RobustScaler
      • QuantileTransformer
      • PowerTransformer
      • Normalizer
      • OrdinalEncoder
      • OneHotEncoder
      • KBinsDiscretizer
      • Binarizer
      • PolynomialFeatures
    • Imputación de valores faltantes — 24:26
      • SimpleImputer
      • IterativeImputer
      • KNNImputer
    • Proyecciones aleatorias — 6:05
      • Proyecciones aleatorias
    • Kernels y su aproximación — 22:05
      • Transformaciones con kernels y kernel trick
      • Nystroem
      • RBFSampler (Radial Basis Function Kernel)
      • AdditiveChi2Sample (Additive Chi Squared Kernel)
      • SkewedChi2Sampler (Skewed Chi Squared Kernel)
    • Transformación de la variable de salida — 7:08
      • LabelBinarizer y MultiLabelBinarizer
      • LabelEncoder
  • Aprendizaje Supervisado
    • Regresores clásicos — 56:14
      • Mínimos cuadrados ordinarios (regresión lineal)
      • Predicción de gastos médicos usando regresión lineal
      • Ridge Regression
      • RidgeCV
      • Predicción de Aportes Mensuales del SIN
    • Clasificadores clásicos — 54:29
      • Regresión Logística
      • LogisticRegressionCV
      • Pronóstico de la popularidad de libros
      • Clasificador Pasivo Agresivo
      • Perceptrón simple
      • RidgeClassifier
      • RidgeClassifierCV
    • Regresores con seleccion de variables — 18:47
      • Elastic-Net
      • ElasticNetCV
      • Lars (Least Angle Regression model)
      • LarsCV
      • Lasso
      • LassoCV
      • LassoLars
      • LassoLarsCV
      • LassoLarsIC
    • Regresores robustos a outliers — 11:22
      • Regresión de Huber (HuberRegressor)
      • QuantileRegressor
      • Regresión robusta usando RANSAC (RANdom SAmple Consensus)
      • TheilSenRegressor
    • Kernel ridge regression — 3:30
      • Kernel ridge regression (KRR)
    • Máquinas de vectores de soporte — 43:12
      • Máquinas de soporte vectorial (SVM)
      • SVC (Support Vector Classifier)
      • LinearSVC
      • NuSVC: Nu-Support Vector Classification
      • SVR: Support Vector Regression
      • LinearSVR
      • NuSVR: Nu-Support Vector Regression
      • Creación de un pipeline ANOVA-SVM para clasificación
      • SVM con selección univariada de características (SVM-ANOVA)
    • Gradiente descendente estocástico — 19:32
      • Gradiente Descendente Estocástico para Regresión
      • Gradiente Descendente Estocástico para Clasificación
    • Vecinos más cercanos
      • Búsqueda de los vecinos más cercanos — 15:21 min
      • Vecinos próximos para clasificación — 10:36 min
      • Neighborhood Components Analysis — 9:31 min
      • Vecinos próximos para regresión — 7:10 min
      • Estudio de Caso: Diagnóstico del cáncer de seno usando kNN — 11:51 min
    • Procesos gaussianos
    • Descomposición cruzada
    • Naive bayes
    • Arboles de decisión — 34:55
      • Definición
      • Algoritmo general de particionamiento recursivo
      • Formulación matemática
      • sklearn.tree.DecisionTreeClassifier
      • sklearn.tree.ExtraTreeClassifier
      • sklearn.tree.DecisionTreeRegressor
      • sklearn.tree.ExtraTreeRegressor
      • sklearn.tree.export_text
      • sklearn.tree.plot_tree
      • Identificación de créditos riesgosos usando árboles de decisión — 10:54 min
    • Métodos de emsable
    • Algortimos multiescala y multiclase
      • Estrategías One-Vs-One y One-Vs-Rest
    • Selección de características — 1:03:05
      • Remoción de características de baja varianza
      • Test ANOVA de una vía (f_regression) para problemas de regresión
      • Test ANOVA de una vía (f_classif) para problemas de clasificación
      • Estimación de la Información Mutua (mutual_info_classif y mutual_info_regression) entre variables
      • Test chi2 para problemas de clasificación
      • Selección de características con los scores más altos usando SelectKBest
      • Selección de características con scores más altos usando SelectPercentil
      • Selección de variables a partir de una prueba FPR (SelectFpr)
      • Selección de variables basadas en la tasa de descubrimientos falsos (SelectFdr)
      • Selección de características basada en la tasa de error (SelectFwe)
      • Eliminación recursiva de características (RFE)
      • Eliminación recursiva de características usando cross-validation (RFECV)
      • Reducción de dimensionalidad usando SelectFromModel()
    • Regresión isotonica — 4:16
    • Calibración de la probabilidad
    • Modelos de redes neuronales — 40:13
      • Modelo del perceptrones multicapa
      • Funciones de activación para la capa oculta
      • Capacidad de aprendizaje y complejidad del modelo
      • Dificultad de entrenamiento de un MLP
      • MLPRegressor
      • MLPClassifier
      • Predicción de la resistencia del concreto usando redes neuronales
      • Pronóstico de una serie de tiempo usando redes neuronales — 41:42 min
  • Aprendizaje no supervisado
    • Modelos de mixtura gaussiana
      • Mixtura de modelos gaussianos — 12:57
    • Manifold learning
      • Isometric Map (Isomap)
      • Locally Linear Embedding
      • Spectral Embedding
      • Multidimensional Scaling (MDS)
      • t-SNE Embedding
      • neighbors.NeighborhoodComponentsAnalysis
    • Clustering — 1:04:03
      • Algoritmo de agrupamiento K-means
      • MiniBatchKMeans
      • Coeficiente de la silueta
      • Agrupamiento aglomerativo
      • Caso de estudio: Segmentación un mercado de adolescentes
      • Análisis de patrones horarios de demanda
    • Biclustering
    • Algoritmos de descomposición — 26:38
      • Análisis de Componentes Principales (PCA) — 9:20
      • KernelPCA — 5:59
      • TruncatedSVD y Latent Semantic Analysis — 6:52
      • Análisis de Factores — 4:28
    • Estimación de la covarianza
      • Estimación de la Covarianza Empírica — 11:16 min
      • Método de Covarianza Reducida — 6:09 min
      • Estimación Robusta de la Covarianza — 6:27 min
    • Detección de outliers
      • Detección de novedades — 10:24 min
      • Detección de outliers usando EllipticEnvelope — 8:40 min
      • Detección de outliers usando Isolation Forest — 10:28
      • Detección de outliers usando Local Outlier Factor — 8:54 min
    • Estimación de la densidad
      • Kernel Density Estimation — 11:06 min
    • Modelos de redes neuronales
      • Restricted Boltzmann machines — 10:25 min
  • Datasets
    • Datasets
      • Conjunto de datos de la flor de Iris — 5:09 min
      • El dataset diabetes — 1:02 min
      • El dataset hand-written digits — 2:48 min
      • El dataset wine — 2:59 min
      • Conjunto de datos de cancer de seno de Wisconsin — 4:17
      • Conjunto de datos de la resistencia del concreto — 2:58
      • El German Credit Dataset — 2:31 min
      • Olivetti faces dataset — 3:45 min
      • The 20newsgroups dataset — 5:34 min
      • La función make_blobs — 7:11 min
      • La función make_classification — 5:02 min
      • La función make_circles — 3:33 min
      • La función make_moons — 3:40 min
      • La función make_two_spirals — 3:19 min
      • La función make_exclusive_or — 4:05 min
      • La función make_regression — 4:02 min
Back to top

Preprocesamiento de datos — 45:48#

  • StandardScaler
  • MinMaxScaler
  • MaxAbsScaler
  • RobustScaler
  • QuantileTransformer
  • PowerTransformer
  • Normalizer
  • OrdinalEncoder
  • OneHotEncoder
  • KBinsDiscretizer
  • Binarizer
  • PolynomialFeatures
Next
StandardScaler
Previous
Creación de un pipeline para clasificación de texto
Made with Sphinx and @pradyunsg's Furo