Introduction au Machine Learning

Quiz d'évaluation des concepts fondamentaux du Machine Learning

Quiz

Le department de la police du la ville de xxx a decidé de predire le caractere criminel des gens basé sur leur visage

Dubitatif, vous êtes en charge de la partie ML du projet

vous fourbissez votre scikit learn et construisez un super modele

Le jeux de donnée:

1e phase: les donnees du visage (votre telephone vous reconnait, il doit y avoir du signal non ?)

Q1) quel est un bon benchmark pour comparer l’efficacite de votre modele

solution: 1 et 3 1: si on bat un modele totallement aleatoire on aura gagné 2: aucune correlation possible entre longeur des oreilles et comportement criminel 3: statistiquement les hommes sont plus a meme d’avoir un comportement criminel donc c’est pas absurde de prendre ca comme point de depart

q2) on a pas de colonne labelisée criminel, quelle strategie employer

solution 1: oui cela prend du temps mais c’est une etape necessaire pour avoir un dataset supervisé 2: ca ne sert a rien 3: meme si c’est la bonne approche legalement et socialement, cela ne nous permettra pas d’avoir un dataset 4: le modele trouvera surement de s groupes de gens par afffinite mais cela ne veut pas dire qu’ils siont plus ou moins criminel

q3) on a une colonne criminel, et les caracteristiques suivantes

on entraine un modele qui predit a 55% correctement le comportement criminel

q4) depuis 2020, le fisc est autorise a analyser les reseaux sociaux des personnes tres publqiues pour valider netre autre des declarations erroné de residence fiscale. en gros ils veulent s’arrurer que les contribuables domocilie a l’etranger reside bien a letranger et que c’est pas simplemet une question de reduction d’impot

Comment le fisc peut il s’y prendre

https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000043129895

A partir de cet échantillon, sont collectées, à partir des contenus visés à l’article 2, les données suivantes : a) Les données d’identification des titulaires des pages internet analysées ; b) Les contenus des pages permettant d’identifier des lieux géographiques qui peuvent notamment être des écrits, des images, des photographies, des sons, des signaux ou des vidéos.

q5) limite de l’approche blackbox

Alphonse demande un credit et se le vois refusé Il demande a la banque pourquoi ce refus

la banque ne sait pas lui repondre elle a utilsié un modele BB qui ne permet pas de savoir comment chqaue decision a ete prise

q6) le modele de prediction est en production mais on s’appercoit que ses perfo decroient fortement depuis 2 j Que se passe til probablement

C’est bien connu tous les malfrats ont des lunettes noires des cheveux gominé et des garndes moustaches Notre modele le sait bie et a bien identifie ces patterns What could go wrong

q7) comment choisir son modele

q8) gradient simplifie

q9) on entraine un model black box de detection des feux de forets sur la foret francaise mediterrane

on applique ce modele au nord de la france

what could go wrong quel scenario est plausible

q10) meme probleme mais avec une regression lineaire qui explicite bien les parametres sachant que ce que regarde le modele est la presence de fumee et de forte lueur

q11) binaire ou proba

on entraine un modele variable cible : criminel / pas criminel c’est

on entraine un modele variable cible: probab de commetre un crime

variable cible: un pe, moyen, beaucoup classification ordonneee