En réalité ma question concerne plutot la différence entre KMeans(clustering) et SVM(supervised classification).
idée:
Dans votre example(TP de KMeans), vous avez cité les données de Spambase Data Set issues de l’archive de l’UCI. Il s'agit des données de 2 groupes et 57 attributes(dimension). Etant donnée que nous connaissons déjà le nombre de classes et que les données sont étiquettées, il s'agit plustot de l'apprentissage supervisé et on doit utiliser SVM pour la classification des donnees.
Questions:
1. Est-ce que la conclusion ci-dessus est correcte?
2. Si oui, pourquoi vous avez mis cet example dans KMeans mais pas dans le TP de SVM?
3. Pour répondre à votre dernière question du TP:
Je réponds: Il faudrait créer le type de données LabeledPoint et ensuite exécuter l'algo de SVM avec la projection. Est-ce que c'est correct?Réalisez la classification des données Spambase Data Set issues de l’archive de l’UCI. Comment pré-traiter les données et pourquoi ? Combien de groupes rechercher ? Visualisez ensuite leurs projections sur des groupes de 3 variables
Merci par avance.