Démontrer votre capacité à créer une chaine de traitement des données textuelles sur l'analyse d'opinion et la classification de locuteur
- Travail en monome ou binome :
- Jeux de données
- Revues de films
- Chirac / Mitterrand
- Analyses obligatoires
- Comparer les performances avec différents pré-traitements
- e.g Taille de vocabulaire, unigram/bigram, Stemming, ...
- Implémenter un post-traitement sur les données Chirac/mittérrand
- Appliquer les traitements optimaux sur les données de test et sauver les résultats dans un fichier txt
- Comparer les performances avec différents pré-traitements
- Compléments optionnels
- Analyser les performances avec Word2Vec, en utilisant des stratégies d'agrégation naïves
- Ecrire un rapport succinct
- Présentant les courbes de performances pour les paramètres les plus influents/marquants
- Quelques conclusions sur le travail effectué
- Soumettre par mail:
- Rapport, Notebook(s), 2 fichiers de scores (locuteur/opinion)