Introduction au Machine Learning

Quiz final sur les modèles avancés et l'ensemble learning

Quiz P4

Q1) Vous avez scindé votre jeu de données en 2 sous-ensembles, entraînement et test. Vous observez le score de votre modèle sur ces 2 sous-ensemble

Dans quel cas pouvez vous conclure que le modèle overfit ?

”»” veut dire très supérieur à

Reponse

Dans le 2ème cas, quand le score sur le sous ensemble de test est bien inférieur au score sur le sous ensemble d’entraînement, on peut conclure que le modèle overfit.

Q2) arbres de decision

Considérons un modèle d’arbre de décision simple

Quelle affirmation est vraie?

Un arbre de décision dont la profondeur max_depth n’est pas limité

Reponse

Limiter la profondeur maximale d’un arbre de décision permet de limiter sa tendance naturelle a over fitter. La réponse 3 est donc vraie. Un arbre de décision dont le paramètre de profondeur maximum n’est pas limité aura en effet tendance à overfitter.

Q3) Quelle affirmation est vraie

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html

La bonne réponse est la première. le paramètre alpha est un terme de régularisation de type L2 permettant de tempérer le overfitting du modèle.

Voir le cours P4C2, pour le fait que les autres réponses sont fausses

Q4)

Quelle affirmation est vraie ?

La réponse 4 est la bonne. La validation croisée permet d’estimer la performance d’un modèle sur plusieurs sous-ensemble successifs du jeu de données initial. De cette façon, la performance du modèle n’est plus évaluée sur un sous-ensemble de test particulier mais sur plusieurs. L’évaluation est donc plus robuste.

Q5) Quelle affirmation est vraie ?

Réponses 2 et 4. voir chapitre P4C3

La réponse 1 est une méthode appelé stacking qui met en oeuvre des modèles de type différents

la réponse 3 ne correspond à aucune méthode particulière.

Q6) Quelle affirmation est vraie ?

Les modèles obtenue par la technique du bagging Le bagging permet de

reponses 2 et 3

Comme il y a plus de modele a entraîné, le baggin aurait plutot tendance à accroitre le temps d’entrainement par rapport au modèle de base

le bagging peut être appliqué à toute sortes de modèles de, régression, k-means etc

Q7) Quelle affirmation est vraie ?

Response 1

Q8)

dans le cadre d’un nouveau projet de machine learning Etablir un benchmark permet de

Response 1 C’est en effet le but du benchmarking. Fixer les attentes et valider que les modèles plus complexes apportent bien des gains de performance.

Optimiser un gradient boosting peut se révéler compliqué et ne serait pas le premier type de modèle a entraîné dans le cadre d’un nouveau projet

Réponse 3: c’est plutôt le contraire. les forêts aléatoires ont moins de paramètres que le gradient boosting et sont donc plus faciles à entraîner

Enfin on parle ici de performance de prédiction des modèles et non des performances du matériel informatique nécessaire au projet.