Introduction au Machine Learning

Quiz final sur les modèles avancés et l'ensemble learning

Quiz P4

Q1) Vous avez scindé votre jeu de données en 2 sous-ensembles, entraînement et test. Vous observez le score de votre modèle sur ces 2 sous-ensemble

Dans quel cas pouvez vous conclure que le modèle overfit ?

”»” veut dire très supérieur à

le score(test) == score(train)
le score(test) « score(train)
le score(test) » score(train)

Reponse

Dans le 2ème cas, quand le score sur le sous ensemble de test est bien inférieur au score sur le sous ensemble d’entraînement, on peut conclure que le modèle overfit.

Q2) arbres de decision

Considérons un modèle d’arbre de décision simple

Quelle affirmation est vraie?

Un arbre de décision dont la profondeur max_depth n’est pas limité

a forcément un biais élevé
n’overfit jamais
peut overfitter

Reponse

Limiter la profondeur maximale d’un arbre de décision permet de limiter sa tendance naturelle a over fitter. La réponse 3 est donc vraie. Un arbre de décision dont le paramètre de profondeur maximum n’est pas limité aura en effet tendance à overfitter.

Q3) Quelle affirmation est vraie

Dans le modèle Ridge le terme de régularisation ajoute une contrainte sur les coeff de la régression
Le but de la régularisation est de réduire le biais d’un modèle
Il n’est pas possible de régulariser une forêt aléatoire car il n’y a pas de paramètre de type L2 comme dans Ridge
le paramètre alpha du modèle ridge correspond au nombre de variable de la régression

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html

La bonne réponse est la première. le paramètre alpha est un terme de régularisation de type L2 permettant de tempérer le overfitting du modèle.

Voir le cours P4C2, pour le fait que les autres réponses sont fausses

Q4)

Quelle affirmation est vraie ?

l’objectif de la validation croisée est de maximiser la sélection des données d’apprentissage pour accroître la performance du modèle.
La validation croisée est utilisée pour évaluer les performances d’un modèle sur le sous-ensemble d’entraînement
La validation croisée garantit qu’un modèle donnera de bons résultats sur des données de production.
La validation croisée permet d’obtenir une estimation robuste de la performance du modèle.

La réponse 4 est la bonne. La validation croisée permet d’estimer la performance d’un modèle sur plusieurs sous-ensemble successifs du jeu de données initial. De cette façon, la performance du modèle n’est plus évaluée sur un sous-ensemble de test particulier mais sur plusieurs. L’évaluation est donc plus robuste.

Q5) Quelle affirmation est vraie ?

l’apprentissage d’ensemble consiste à combiner ensemble plusieurs type de modèle, par exemple une régression logistique et une forêt aléatoire
l’apprentissage d’ensemble consiste à associer de multiples instances d’un modèle de faible performance pour obtenir un modèle global plus performant
La méthode du bagging consiste à supprimer les modèles les plus faibles et ne garder que les instances les plus performantes pour constituer le modèle d’ensemble
pour une classification, le bagging utilisera le vote majoritaire pour déterminer la catégorie prédite par le modèle d’ensemble

Réponses 2 et 4. voir chapitre P4C3

La réponse 1 est une méthode appelé stacking qui met en oeuvre des modèles de type différents

la réponse 3 ne correspond à aucune méthode particulière.

Q6) Quelle affirmation est vraie ?

Les modèles obtenue par la technique du bagging Le bagging permet de

accroître la vitesse d’entraînement du modèle de base
reduire l’overfit
rendre les modèle plus robuste
n’est disponible que pour les arbres de décision

reponses 2 et 3

Comme il y a plus de modele a entraîné, le baggin aurait plutot tendance à accroitre le temps d’entrainement par rapport au modèle de base

le bagging peut être appliqué à toute sortes de modèles de, régression, k-means etc

Q7) Quelle affirmation est vraie ?

Les forêts aléatoires consiste à combiner de nombreuses instances d’arbres de décision entraînées en parallèle
Les forêts aléatoires sont seulement utilisées pour la classification
chaque arbre de décision est entraîné sur l’intégralité des données
chaque arbre de décision est entraîné sur l’intégralité des variables disponibles

Response 1

il y a des version de forêt aléatoire pour la régression et la classification dans scikit-learn
chaque arbre peut être entraîné sur une partie des données et une partie des variables

Q8)

dans le cadre d’un nouveau projet de machine learning Etablir un benchmark permet de

etablir un benchmark avec un modèle simple de type régression linéaire ou régression logistique permet de quantifier les gains obtenus avec des modèles plus complexes
Sur un nouveau dataset, entraîner en premier lieu un gradient boosting permet d’obtenir les meilleures performances. pas besoin de considérer des modèles plus simples
les forêts aléatoires sont difficile a paramétrer et sont à considérer que si le gradient boosting ne donne pas des résultats satisfaisant
Le benchmarking en début de projet sert à évaluer les ressources informatiques qui seront nécessaires au projet de machine learning

Response 1 C’est en effet le but du benchmarking. Fixer les attentes et valider que les modèles plus complexes apportent bien des gains de performance.

Optimiser un gradient boosting peut se révéler compliqué et ne serait pas le premier type de modèle a entraîné dans le cadre d’un nouveau projet

Réponse 3: c’est plutôt le contraire. les forêts aléatoires ont moins de paramètres que le gradient boosting et sont donc plus faciles à entraîner

Enfin on parle ici de performance de prédiction des modèles et non des performances du matériel informatique nécessaire au projet.