← Back to ml2llm

Kaggle housing prices competition

1 min read

Kaggle housing prices competition

---

Plan

  • s'enregistrer sur Kaggle
  • rejoindre la competition Spaceship titanic
  • ouvrir un notebook Colab

Data processing

  • simple data processing
    • missing values : SimpleImputer (median) ou ajouter "missing" dans les categories
    • on garde les outliers pour le moment

Design matrix et target vector

  • numeriser les variables non numerique : creer les transformations (OrdinalEncoder)
    • categories sur train et test:
    • boolean

Baseline

  • sur le train.csv

    • etablir un baseline avec un simple model
      • 50/50
      • regression lineaire
  • sur le test numerisee

    • predire avec le model
  • creer le pipeline de traitement qui permet de soumettre dans la competition

Modeles

  • travailler avec les modeles suivants:
    • Modele lineaire
    • decision tree
    • entrainer une random forest avec parametres par defaut
    • optimiser
      • detecter overfit
      • cross validation
      • grid search + cross validation

Revenir au traitement des données

  • outliers:
    • cap
    • cap + flag
    • binning
  • different categories encoding : label encoder, binary encoding,