Question concernant le TP de KMeans

Modérateur : Crucianu

Répondre
Min
Messages : 9
Inscription : 25 mars 2015 15:31

Question concernant le TP de KMeans

Message par Min » 17 mai 2015 1:25

Bonjour,

En réalité ma question concerne plutot la différence entre KMeans(clustering) et SVM(supervised classification).

idée:
Dans votre example(TP de KMeans), vous avez cité les données de Spambase Data Set issues de l’archive de l’UCI. Il s'agit des données de 2 groupes et 57 attributes(dimension). Etant donnée que nous connaissons déjà le nombre de classes et que les données sont étiquettées, il s'agit plustot de l'apprentissage supervisé et on doit utiliser SVM pour la classification des donnees.

Questions:

1. Est-ce que la conclusion ci-dessus est correcte?
2. Si oui, pourquoi vous avez mis cet example dans KMeans mais pas dans le TP de SVM?
3. Pour répondre à votre dernière question du TP:
Réalisez la classification des données Spambase Data Set issues de l’archive de l’UCI. Comment pré-traiter les données et pourquoi ? Combien de groupes rechercher ? Visualisez ensuite leurs projections sur des groupes de 3 variables
Je réponds: Il faudrait créer le type de données LabeledPoint et ensuite exécuter l'algo de SVM avec la projection. Est-ce que c'est correct?

Merci par avance.

Crucianu
Messages : 17
Inscription : 21 janv. 2015 18:35

Re: Question concernant le TP de KMeans

Message par Crucianu » 18 mai 2015 15:19

Bonjour,

Il est tout à fait possible de faire de la classification automatique (clustering) sur des données étiquetées, sans tenir compte des étiquettes de classe. Cela permet de voir quels sont les "regroupements naturels" des données. Ces groupes peuvent ensuite être comparés aux classes (définies par les étiquettes). En général, les groupes obtenus par la classification automatique ne correspondront pas aux classes. Parfois, chaque classe est composée de plusieurs groupes. Parfois, certains groupes peuvent contenir des données issues de plusieurs classes différentes (la similarité dans l'espace des variables initiales ne permet pas à séparer les classes).
Dans de rares cas, chaque classe correspond à des données très similaires entre elles et très différentes des données d'une autre classe ; dans de tels cas, la classification automatique peut arriver à retrouver les mêmes résultats qu'un modèle de discrimination de type SVM linéaire.

La question du TP KMeans demandait de faire une classification automatique et non d'apprendre un modèle de discrimination de type SVM linéaire.
Les réponses aux questions ont été remises en ligne.

Bien cordialement,
Michel Crucianu

Min
Messages : 9
Inscription : 25 mars 2015 15:31

Re: Question concernant le TP de KMeans

Message par Min » 20 mai 2015 10:29

Bonjour M. Crucianu,

Merci pour votre réponse !

Dans une réelle situation, comment on peut choisir utiliser KMeans ou SVM linéaire? Vous pouvez prendre l'example de Spambase Data Set issues de l’archive de l’UCI.

Merci par avance.

Cdt,
Min

Crucianu
Messages : 17
Inscription : 21 janv. 2015 18:35

Re: Question concernant le TP de KMeans

Message par Crucianu » 20 mai 2015 15:51

Bonjour,

Le choix est fait suivant l'objectif : la classification automatique peut être utile dans une étape exploratoire, la discrimination (SVM linéaire) supervisée sera nécessaire pour l'étape décisionnelle.

Bien cordialement,
Michel Crucianu

Min
Messages : 9
Inscription : 25 mars 2015 15:31

Re: Question concernant le TP de KMeans

Message par Min » 20 mai 2015 22:12

Merci !

Répondre

Qui est en ligne ?

Utilisateurs parcourant ce forum : Aucun utilisateur inscrit et 1 invité