Day 1
- presentations
- scope
- google colab
- markdown
des stats au Machine learning
des stats au ML
- importance des données
- Modélisation statistique ou modélisation prédictive
- Machine learning definition
- Regression ou classification, Classification binaire ou multi class
- supervisée vs non supervisée
- UCI datasets
- sklearn et slides
- statsmodels
principe d'entrainement iteratif
https://skatai.com/initml/modeles-algorithmes/
- sqrt(2)
- erreur d'estimation
- learning rate
Pandas dataframes
Regression lineaire avec scikit-learn
https://skatai.com/initml/etapes-construction-modele/
- variable cible et matrice de design
- import, fit, score
- coeff de determination
- fonction de cout
- metrique d'evaluation des performances
- MSE, RMSE, MAPE etc
LR sur dataset advertising
https://skatai.com/courses/initml/entreainez_regression_lineaire/
plus en detail
- linearité
- conditions : linearité, normalisation, independance des variables
- ajouter un terme quadratique
- pratique sur advertising, enfants, ou autres datasets sur UCI
- load dataset dans dataframe
- exploration
- nettoyage
- normalisation
- OLS avec statsmodel : construire plusieurs modeles
- feature engineering : terme quadratiques, log etc
- meilleur modele ?
- datasets:
Logistic regression
https://openclassrooms.com/fr/courses/5873596-perform-effective-data-modeling/6233016-classify-with-logistic-regression
- pourquoi utiliser la regression logistique ?
- function logit
- metriques
- matrice de confusion
- loss function