May 17, 2017 · 2 min read
By Alexis Perrier
J'ai eu le plaisir de mener récemment un workshop sur le topic modeling dans le cadre du Master Méthode computationnelle et analyse de contenu à l'Université Paris Est Marne la vallée.
Il y a assez peu de ressources en français sur le topic modeling. Le seul résultat que j'ai pu trouver semble etre ce cours ci.
Le workshop est organisé autour de 2 datasets. Un premier corpus assez propre construit à partir de résumés d'articles de IEEE et Arstechnica, deux sites de publications autour de la high tech. Un deuxième corpus constitué du contenu d'un forum Facebook de la droite américaine. Le deuxième corpus est bien plus délicat à traiter, les textes étant particulièrement bruités.
J'utilise l'excellent package STM en R pour la partie topic model. Il offre de nombreuses fonctionnalités et métriques pour determiner le nombre optimal de topics dans le corpus, préparer le texte ou visualizer les résultats.
Les slides du cours sont disponibles à l'adresse: https://www.slideshare.net/alexip/cours-de-topic-modeling, les datasets, et les scripts en python sont sur la repo github: https://github.com/alexisperrier/upem-topic-modeling
Voici le plan du cours