Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Classification automatique & Co. #101

Open
even4void opened this issue May 9, 2019 · 6 comments
Open

Classification automatique & Co. #101

even4void opened this issue May 9, 2019 · 6 comments

Comments

@even4void
Copy link
Contributor

Il serait intéressant d'ajouter un (sous-)chapitre sur les techniques de classification autre que la CAH, en particulier sur les nuées dynamiques (k-means), les modèles de mélange (mclust) et les techniques dérivées plus récentes (t-SNE, etc.).

Les k-means constituent un cas particulier des modèles de mélange (cas gaussien, même matrice de variance-covariance), et les modèles de mélange se retrouvent dans le domaine psychométriques sous l'appellation analyse en traits latents (dont le pendant dans le cas des données discrètes est l'analyse en classe latente).

Concernant la validation des résultats de "clustering" (cf. #70), le package fpc (approche par bootstrap et matrice de Jaccard) marche pas mal -- j'en fournis une illustration sur Cross Validated, et il présente l'avantage de marcher avec la plupart des algorithmes de classification de R.

Ma question est donc : (1) est-ce qu'on inclut tout ça dans le chapitre existant sur la classification ascendante hiérarchique, ou (2) est-ce qu'on crée un autre chapitre sur la validation des classifications et on inclut les nuées dynamiques et modèles de mélange en tant que sous-chapitre dans le chapitre déjà existant ?

@larmarange
Copy link
Owner

Salut,

c'est une bonne idée de chapitre. Ceci dit, plutôt que d'alourdir le chapitre sur la CAH, il me semblerait plus pertinent d'en faire un nouveau chapitre dans la section Analyser > Statistiques avancées, avec bien sûr des liens entre les chapitres.

@larmarange
Copy link
Owner

Et la validation des sous-classifications pourraient être une sous partie de ce nouveau chapitre Classifications automatiques et clustering

@even4void
Copy link
Contributor Author

even4void commented May 10, 2019

Ok, je m'en occupe dans ce cas ! Je soumettrai une PR pour clore cette issue.

@larmarange
Copy link
Owner

Petite question : es-tu familier du package NbClust ? (pour ma part, je le connais seulement de nom) Est-ce qu'il aurait sa place dans ce chapitre ?

@even4void
Copy link
Contributor Author

Je connais une bonne partie de ces indices, mais je n'ai jamais utilisé ce package. Je préfère les méthodes de rééchantillonnage ou celles sur lesquelles on peut poser un modèle probabiliste. En tout cas, je vais le rajouter au chapitre sur la validation des solutions de classification non supervisée.

@larmarange
Copy link
Owner

larmarange commented May 24, 2019 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants