Vous avez récemment rejoint l'office des forêts avec comme mission la détection des feux de forêts en France. Vous décidez d'utiliser les techniques de points en machine learning.
Le premier jour, le ministère du tourisme vous pose une série de questions. Lesquelles relèvent du machine learning et non de la modélisation statistique?
Est-ce que les forêts en monoculture sont plus exposées aux risques de feux de forêts que les forêts mixtes ? Quelle est la relation entre la biodiversité d'une forêt et la quantité de lumière solaire qu'elle reçoit ? [vrai] Peut-on établir des prévisions de la probabilité de feux de forêts, parcelle par parcelle, pour le mois prochain ?
Responses: les questions 1 et 2 sont a propos de relations entre diverses variables et sont donc des questions de statistique la question 3 est bien une question de prévision et donc relève du machine learning
Vous entraînez un modèle de prédiction des feux sur les données 2022 du sud de la France, en exploitant les caractéristiques des forêts méditerranéennes. Vous appliquez ce modèle sur une région du nord du Maroc, dont les forêts sont aussi méditerranéennes. Vous observez de bonnes performances des prédictions. A votre avis pourquoi?
reponse:
Le modèle peut montrer de bonnes performances sur les deux régions en raison de caractéristiques environnementales similaires, de données d'entraînement représentatives ou d'une robustesse intrinsèque du modèle face à des variations entre les régions.
Ce jeu de données sur les feux de forêts au Portugal, a comme variable cible la surface de forêt brûlée. Il est disponible sur UCI a l'adresse https://archive.ics.uci.edu/dataset/162/forest+fires
Qu'est ce qui est vrai
La réponse 2 est la bonne, il y a 13 variables ou attributs donc 1 variable cible et 12 variables prédictives
Soit un dataset sur les incendies de forêt avec 1247 échantillons qui comporte les colonnes suivantes
Quel type de modélisation pouvez-vous potentiellement réaliser à partir d'un tel dataset?
Reponse
Les projets 1 et 2 sont réalistes et correspondent bien respectivement à des approches supervisé et non supervisé Le projet 3 n'est pas une modélisation non supervisée mais plutôt une étude statistique
Vous travaillez sur le même dataset qu'à la question précédente. Vous souhaitez développer un modelée classification binaire mais il n'y a pas de variable qui soit déjà binaire. Que pourriez-vous faire?
reponses: La question 3 est vraie. considérer 2 cas exclusifs permet de construire une variable binaire la question 1 est fausse, le log de la somme d'une variable continue reste une variable continue. de même pour tout calcul équivalent (exp, moyenne etc ) La question 2 est fausse, on pourrait considérer le nombre d'espèces d'arbres comme une catégorie (1,2,3, ...). Qui pourrait être grande. mais la ne constituerait pas une variable binaire.
On vous donne un dataset composé d'images satellites montrant des photos régulières des parcelles de forêts tout au long de l'année. Le jeu de données est constitué de plus de 10.000 photos. Vous avez annoté une centaine d'images à la main. Cela prend du temps et c'est fastidieux. Vous voulez maintenant entraîner un modèle pour annoter automatiquement les autres Le projet est de construire un modèle de détection de la présence ou non d'un feu sur l'image.
Qu'allez-vous utiliser comme type de modèle?
réponse: Les réseaux de neurones sont plus adaptés aux traitements d'images. La régression linéaire est adaptée à des dataset avec peu de variables. il sera difficile d'extraire les informations des images pour les condenser dans assez peu de variables. Les modèles à base d'arbres ne sont pas spécialement adaptés à traiter des images satellites de forêts.
On considère le même dataset avec comme variable cible la surface des feux
Qu'est ce qui ferait une bonne erreur d'estimation pour l'entraînement d'un modèle de régression de la surface de feux
La question 1 est fausse . L'erreur d'estimation doit être toujours positive de façon à pouvoir être minimisée. en effet on ne peut trouver de minimum a une fonction qui peut toujours être encore plus négative La question 2 est vrai La question 3 est fausse, si il n'y a pas eu de feu, le dénominateur a zéro donnera une erreur infinie quelle que soit la prédiction.
Toujours en considérant le même jeu de donnée, qu'est ce qui ferait un bon benchmark avant de se lancer dans une modélisation prédictive ML pour prédire les surfaces brûlées
Le premier benchmark bien qu'optimiste (aucun feu) est trop simple. N'importe quel modèle aléatoire qui prédirait certaines surfaces par hasard serait meilleur que cette référence de 0. Donc prédire 0 tout le temps n'est pas très utile
Le deuxième benchmark est aussi simple et donne au moins une information sur la quantité de feux auxquels on pourrait s'attendre. c'est la bonne réponse
Enfin le troisième est sans fondement aucun.