Stack Overflow est un site célèbre de questions-réponses liées au développement informatique. Pour poser une question sur ce site, il faut entrer plusieurs tags de manière à retrouver facilement la question par la suite. Pour les utilisateurs expérimentés, cela ne pose pas de problème, mais pour les nouveaux utilisateurs, il serait judicieux de suggérer quelques tags relatifs à la question posée.
Amateur de Stack Overflow, qui vous a souvent sauvé la mise, vous décidez d'aider la communauté en retour. Pour cela, vous développez un système de suggestion de tag pour le site. Celui-ci prendra la forme d’un algorithme de machine learning qui assigne automatiquement plusieurs tags pertinents à une question.
Mettre en œuvre une approche non supervisée. Utiliser une approche supervisée ou non pour extraire des tags à partir des résultats précédents. Comparer ses résultats à une approche purement supervisée, après avoir appliqué des méthodes d’extraction de features spécifiques des données textuelles. Mettre en place une méthode d’évaluation propre, avec une séparation du jeu de données pour l’évaluation. Pour suivre les modifications du code final à déployer, utiliser un logiciel de gestion de versions, par exemple Git.